序列比较

动态规划 N-W算法,全局比对

S-W局部比对:其实就是引入了一个最低的下限 比如0

sequence

  • 蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。

  • 核酸序列:由4个不同的字母(碱基)排列组合而成。 (DNA序列,RNA序列)

  • FASTA格式:

    • 第一行:大于号加名称或其它注释
    • 第二行以后:每行60个字母(也有80的,不一定)
  • 数据库中的序列相似性搜索

    • 序列的量太大了,需要算法快速精确的找到
    • 相似的序列往往起源于一个共同的袒先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。
    • 简言之,相似序列-相似结构,相似结构-相似功能

1 替换记分矩阵:

  • 替换记分矩阵(Substitution Mattix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。

1.1 DNA替换矩阵

  • 等价矩阵
  • 转换-颠倒矩阵
  • BLAST矩阵

1.2 蛋白质替换矩阵

  • 蛋白质替换矩阵

    • 等价矩阵

    • PAM矩阵(常用)

      • 如果两种氨基酸替换频繁,那么得分就应该高

      • PAM-1矩阵是进化产生的每一百个氨基酸平均发生一次突变的量值。矩阵自乘n次得到PAM-n。PAM-250常用

      • 关于PAM-1的值是如何计算出来的,它们是基于实际的生物学数据,通过比较进化上相近的蛋白质序列,统计各种氨基酸替换发生的频率得到的。这些数据然后被用来计算出每一种氨基酸替换在单位时间内发生的概率,形成PAM-1矩阵。当你自乘这个矩阵,就像是在模拟这些替换在更长的时间内发生的效果,它反映了进化过程中累积的变化。

    • BLOSUM矩阵

      • 通过关系较远的序列来获得的矩阵元素,是基于真实数据的。而PAM中获得进化距离较远的矩阵,是通过自乘得来的
      • BLOSUM后面数字越大,越适合比较亲缘关系高的序列。反之
      • 最常用:BLOSUM-62
    • 遗传密码矩阵

      • 常用于计算进化距离,优点是计算结果可以直接用于绘制进化树,但是在蛋白质序列比对中很少被使用
    • 疏水矩阵

  • 序列一致度和相似度
    • 相似度由打分矩阵得来
    • 当两个序列不相同的时候,需要进行序列比对,之后就能解决这个问题

2 序列比较

2.1 打点法

  • 打点法

    • 两条不同的序列
    • 除了找出类似对角线的序列外,还可以序列自己和自己打点,从而发现串联重复序列
    • 短串联重复序列(微卫星DNA),高度多态性,即存在重复次数的个体间差异,而这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律。快速查询短串联重复序列的重复次数,可以用于法医学的个体识别或亲子鉴定
    • 比如Dotlight软件
  • 实机演示

  • Dotlet软件

复制fasta格式里的序列,并给序列命名

  • 参数设置

  • 结果显示

2.2 序列比对法

打点发无法定量描述序列的相似度

  • 序列比对法 alignment
    • 可以算分,算出最大相似度得分
    • 全局比对
      • 双序列全局比对N-W算法
    • 局部比对
      • 比对最好的,不好的忽略,用于比较一长一短的两条序列
      • 不是从右下角开始追溯,是从矩阵中最大元素开始追溯

2.3 一致度和相似度

  • 长度不同的序列
    • 一致度 (identity)=(一致字符的个数 / 全局比对长度)×100%
    • 相似度 (similarity) = (一致及相似的字符的个数 / 全局比对长度) ×100%

2.4 双序列比对工具

EMBL-EBI

有全部、局部、基因组比对工具

  • 参数设置

  • 输出结果

3 BLAST搜索

3.1 概念

先找到完全匹配的片段对,然后对超过一定阈值的片段对进行延伸

  • BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。
  • 核心概念:片段对
  • 前两种是最常用的
    • BLASTn
    • BLASTp
    • BLASTx
      • 6条,因为三个碱基翻译成一个氨基酸,不知道是从哪个开始翻译,然后序列有两头,所以就有6种可能
      • 关于为什么核酸序列不直接在核酸序列数据库里进行搜索:1. 很多比对不到 2. 比对到了核酸序列但是没有有用的信息
    • tBLASTn
    • tBLASTx:tBLASTn搜索不着的可以试试这个

3.2 BLAST 实战

NCBI主页我们可以找到BLAST

P46

过程简单记录一下,忘了就回去看视频

匹配出来的有些长有些短,长的就是全长匹配,短的对应的就是匹配的片段位置

第三个是序列匹配的详细信息

其匹配得分与覆盖度对应图片中线的颜色和长短

E值 与得分成反比 但是与一致度并非成反比

为了提高运行速度,BLAST搜索丢失了一些准确度,对高度相似的序列构成不了威胁,但容易丢失一些远源序列

  • BLAST (基本局部比对搜索工具,Basic Local Alignment Search Tool) 是一个用于比较蛋白质或核酸序列的相似性,并找到其在数据库中的相似序列的算法。其工作原理大致如下:
    1. 单词阶段(Word Stage):BLAST首先从待查询的序列中选择一个固定长度的子序列(例如,蛋白质为3个氨基酸,核酸为11个核苷酸),被称为"单词"(word)。这些"单词"被用于在数据库中找到可能的匹配。在数据库中,与查询单词完全匹配或近似匹配的所有位置都会被选出。

    2. 延伸阶段(Extension Stage):然后,每个匹配的单词都会尝试向两个方向延伸,形成所谓的"HSP"(高分段,High-scoring Segment Pair)。在这个阶段,使用打分矩阵来判断序列对的好坏,并计算比对得分。

    3. 评分(Scoring):计算出的比对得分,如果高于某个预设的阈值,这个HSP就会被保留下来。然后通过动态规划(dynamic programming)的方法,将这些高分段进一步延伸,直到得分不能再提高为止。

    4. 统计分析(Statistical Analysis):最后,BLAST会对这些最终的比对结果进行统计分析,计算E值(E-value,期望值),这个值反映了这样的比对结果在随机情况下出现的可能性。E值越小,该比对结果的显著性越高。

    5. 输出结果(Output):BLAST将返回一个按照E值排序的结果列表,每个结果包括比对的详细信息,如序列的相似性,得分和E值等。

3.3 PSI BLAST

每次搜索完都根据上一次的结果创建一个新的PSSM

3.4 PHI BLAST

模式匹配的blast

使用正则表达式,{}是除了什么之外。[]表示其中选一个,(3,7)表示前面那个字符出现3-7次,x代表任意字符

这样就可以找到序列相似并且符合某个特征的序列

  • 结果

  • 当然也可以PSI blast跟PHI blast 联合使用

  • 还有一个smart BLAST

除了NCBI之外,各大数据库都有blast搜索

4 多序列比对

  • 多序列比对

多序列比对的主要用途:

  1. 确认:一个未知的序列是否属于某个家族,
  2. 建立:系统发生树构建的基础,查看物种间或者序列间的关系
  3. 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段(这些保守区域在多物种中非常相似
  4. 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也具有该功能。
  5. 其他:预测蛋白质/RNA二级结构
  • 多序列比对的算法
    • 目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。往往是要看到一个趋势和大体位置
  • 保守程度高低、比对质量高低、共有序列

从多序列比对中来找到保守区域

通过下面的星星点点来判断,*是完全一致,.是相似

  • 序列标识符
    • 序列标识图(sequencelogo)是以图形的方式依次绘出序列比对中各个位置上出现的残基。每个位置上残基的累积可反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。

系统发生树

蛋白质结构

将前面的序列三维化

  • 一级结构 Primary structure
    • 氨基酸序列
  • 二级结构 Secondary structure
    • 周期性的结构构象 \(\alpha\)螺旋 \(\beta\)折叠 转角
  • 三级结构 Tertiary structure
    • 整条多肽链的三维空间结构
  • 四级结构 Quaternary structure
    • 多个亚基形成的复合体结构,如三聚体、四聚体
  • 本章研究2、3、4级结构
    • 蛋白质从1级结构折叠成三级结构后,才能上岗工作
  • 二级结构

dssp文件是记录蛋白质结构的文件,蛋白质结构数据库pdb中每一个三级结构都有对应的dssp文件。研究人员是根据字典去已经测出的三级结构中找的二级结构

至少记住H是\(\alpha\)螺旋 E是\(\beta\)折片

绝大多数的蛋白质结构还是未知的,所以需要计算机算法预测

  • 三级结构是指整条多肽链的三维空间结构,即,包括骨架和侧链在内的所有原子的空间排列
    • pdb文件
    • X射线衍射法、核磁共振法
  • 计算方法预测三级结构
    • 只要氨基酸序列就行,
    • 同源建模法:找到一个合适的模版
    • 穿线法
    • 从头计算法
    • 模型评估
      • 并不是比较预测模型跟真实结构的差别大小,而是从空间几何学、立体化学和能量分布三方面来评估一个模型的自身合理性
  • 三级结构的比对
    • 结构比对就是对蛋白质三维空间结构的相似性进行比较,他是蛋白质结构分析的重要手段之一。
      1. 可用于探索蛋白质进化及同源关系
      2. 改进序列比对的精度
      3. 改进蛋白质结构预测工具
      4. 为蛋白质结构分类提供依据
      5. 帮助了解蛋白质功能
  • 蛋白质分子表面性质
    • 表面形状
    • 表面电荷分布
  • 蛋白质四级结构
    • 蛋白质四级结构是独立的三级结构单元聚集形成的复合物,其中每个独立三级结构称为亚基,也称为单体(monomer)。含两个亚基的蛋白质称为二聚体(dimer);含三个亚基则称三聚体(trimer);还有四聚体(tetramer);五聚体 (pentamer);六聚体 (hexamer)等。
    • 蛋白质异常聚集导致疾病

基因组和精准医疗

Identify new disease genes

疾病基因的筛查:测定人类基因组,

Genomics-basedscreening

测序

1 概况

下一代测序/新一代测序

深度测序的结果通常被保存为fastq格式。除了序列信息,还保留了每个碱基的质量信息

quality 该碱基位点的错误概率,概率从小到大被编码为ascii码

经验规则:通过会把Q<20的碱基认为是不可靠的,如果某条read上的不可靠碱基占比超过20%,那么就认为该read不可靠,将其丢弃

将reads map 到参考基因组,可以有效的发现不同个体序列存在的差异,然后结合表型,可以进行关联分析

RNA-seq 是通过深度测序测转录组的技术。确定基因的表达水平,后续进行差异分析

Chip-seq是利用深度测序研究转录调控的技术。

Chip-seq通过测定与特定抗体结合的dna序列,进而推断protein dna相互作用

2 NGS:Reads Mapping

把reads mapping 到 ref genome。本质上这是个双序列比对问题,但是前面讲的几种传统序列比对算法,跟这里不一样。

原因:

  1. 双序列比对的时候,两条序列长度区别不大。而这里是read和整个基因组比对
  2. reads的数量非常的多
  3. reads的数据质量参差不齐

从头测序

de novo组装中的重叠-布局-共识(Overlap-Layout-Consensus,简称OLC)方法,使用的是重叠图。以下是这个过程的简要描述:

在de novo组装中,一个关键的挑战是如何将所有的小片段(节点)组织起来,使得它们的重叠(边)反映了它们在原始基因组中的位置。这通常通过一个重叠图来完成。

  1. 重叠图: 在这个图中,每个节点代表一个读取序列,两个节点之间的边表示对应的读取序列有重叠。因此,首要的任务是计算所有的读取序列之间的两两重叠,这将产生很多由于基因组的重复性而产生的假重叠。
  2. 去除冗余边: 一旦重叠图创建好了,下一步是去除或分类冗余的边。冗余的边通常来自基因组中的重复序列。如果在同两个节点(即,同样的两个读取序列在不止一种方式上有重叠)之间有另一条路径,那么这个边就被视为冗余。
  3. 最短路径: 一旦冗余边被移除,目标就是找到穿过图中包含所有必需边的最短路径或行走路径。这条路径代表了重建原始基因组序列的读取序列的最可能顺序和方向。

转录组测序

来测试基因的表达量

对于同一个基因,可能有多个不同的转录的样本(form)。

里面有很多机制,还有待研究开发

表观基因组

修饰 导致的基因表达的差异,来进行识别

调控下游基因

如何有效解读海量的高维度、多噪音、异质性组学数据是生物信息学研究的关键问题。

甲基化是生物学中的一种表观遗传现象,指的是在特定环境或生理条件下,甲基(-CH3)团附加到DNA分子上,通常发生在胞嘧啶(Cytosine)的碱基上,具体来说,就是胞嘧啶的5位碳上。

在哺乳动物中,DNA甲基化主要发生在CpG二核苷酸的环境中,也就是一个胞嘧啶(C)和一个鸟嘌呤(G)之间由磷酸键连接的DNA片段上。这些CpG位点在基因组的某些区域(称为CpG岛)中密度较高。在CpG岛上的甲基化通常与基因的沉默相关,因为这会影响转录因子与DNA的结合,从而抑制基因的表达。

甲基化是一种表观遗传修改形式,可以影响基因的活性和表达,但不改变DNA序列本身。它在许多生物学过程中都起着重要作用,包括基因表达的调控,X染色体失活,胚胎发育,以及对环境因素的记忆等。异常的DNA甲基化模式与多种疾病有关,包括各种类型的癌症。

生物信息学在甲基化研究中起着关键作用,包括使用高通量测序数据来推断甲基化状态,分析其在基因表达中的作用,以及探究不同组织和疾病状态下甲基化模式的差异等。