当前位置:   article > 正文

双序列比对

双序列比对

一、序列比对

序列比对是指利用计算机算法程序,比较两个或多个核酸或蛋白质的一级结构核苷酸或氨基酸的异同

序列比对的研究对象为核酸序列或蛋白质序列。

构成核酸序列的基本单元为核苷酸,构成蛋白质的基本单元为氨基酸

核酸包括脱氧核糖核酸和核糖核酸。DNA序列的基本单元为脱氧核糖核苷酸,由脱氧核糖与磷酸盐构成

DNA分子双螺旋模型,从分子水平上揭示了遗传信息复制和传递的机制

   

蛋白质序列的基本单元为氨基酸。常见的氨基酸有二十种,氨基酸的基本结构包括主链和侧链两部分。不同氨基酸的主链相同,而侧链不同。按侧链基团、大小、亲疏水性和电荷性等不同性质,可以分为四大类。第一类为疏水氨基酸 第二类为带电氨基酸 第三类是既不疏水又不带电的极性氨基酸。最后一类包括半胱氨酸、脯氨酸、甘氨酸三个氨基酸

  

 

序列比对是指利用计算机程序比较核酸或蛋白质序列之间相似性,找出两个或多个序列之间的相
同区域或差异位点。 根据分子生物学中心法则, DNA 是遗传信息携带者,而蛋白质则是功能分子。 不同物种之所以千姿百态、各不相同,其内在原因是 它们的基因组不同,或者更确切地说,是它们的 DNA 序列及其编码所得的蛋白质不同
核酸序列的相似性高低,是指通过序列比对所得 结果中相同核苷酸残基所占比例,通常用百分比表 示。 而蛋白质序列比对结果中,除了用相同氨基酸残基所占比例作为相似性指标外,也经常用相同氨基酸  加上相似氨基酸作为相似性指标
不论是核酸序列还是蛋白质序列,序列相似性 是指相同和相似残基所占全长序列的比例,比例越高,相似性越高。 而序列同源性是指所比较的两个序列是否具有共同的祖先序列
同源序列特别是 亲缘关系较近的序列,相似性通常较高;反之,相似 性较高的两条序列,很有可能具有共同祖先
同源序列通常分为直系同源(Ortholog)和并系 同源(Paralog)两类

二、双序列比对

双序列比对的方法可以分为两种 一种从全长 序列出发, 考虑所比对的两条序列的整体相似性, 即整体比对(Global Alignment); 另一种仅考虑所比对 序 列 部 分 区 域 的 相 似 性, 即 局 部 比 对 ( Local Alignment)。一般说来 亲缘关系近的物种间的序列 相似性较高, 而且经常具有整体相似性 而亲缘关系 较远的物种间序列相似性较低, 有时仅有局部相似 性。 整体比对常用来考察两条序列是否在整体上具 有较大相似性, 并由此推测它们是否具有同源性 。 而局部比对则可以找出两个序列中的保守序列片 段, 如蛋白质序列中某个结构域或功能位点 基因上 游启动子区域核酸序列调控元件等

动态规划与启发式算法

无论是 Needleman⁃Wunsch 算法或 者是 Smith⁃Waterman 算法 都采用计算机领域中常用的动态规划(Dynamic Programming) 算法 动态规划算法的核心思想, 是把一个复杂问题分解为若干子问题, 并通过寻找子问题的解 最终找到初始复杂
问题的解

启发式算法:

序列相似性数据库搜索软件 Basic Local Alignment Search Tool(BLAST)则采用启 发式算法
启发式算法步骤
BLAST 算法大体分为以下三步 首先 将检测序列按一定字长(Word Size) 拆分成种子 ( Seed) 序列, 并按给定计分矩阵和设定阈值 找到与种子序列相似性较高的近邻(Neighbor) 序列 接着 逐个找到各近邻序列在数据库中匹配序列, 并按分值增加原则向两边延伸, 得到高分对 (High Scoring Pair)。 将所得主对角线方向距离较近的高分对连接起来, 并用 Smith⁃Waterman 方法进行比对 最后 对搜索到的靶标 序 列 进 行 统 计 检 验, 输 出 期 望 值 ( ExpectValue) 低于 设 定 阈 值 的 靶 标 序 列 即 搜 索 结 果。 BLAST 也可用于双序列比对 只要把所要搜索的数据库设定为另一个序列。 显然 由于所采用的比对策略完全不同, 基于 Smith⁃Waterman 动态规划算法 的比对结果和基于 BLAST 启发式算法的比对结果不一定相同, 某些情况下差别很大

计分矩阵与空位罚分

所谓计分矩阵 是指比对过程中相同或不同核苷酸或氨基酸之间的匹配或错配分值。 例如, 核酸序列比对时通常匹配分值为正值 而错配分 值为负值。 蛋白质序列比对时 匹配分值为正值 而 错配分值则与氨基酸性质有关, 性质不同的氨基酸之间的错配分值为负值, 而性质相似的氨基酸之间的分值有可能为正值
欧洲分子生物学开放软件包 ( European MolecularBiology Open Software Suite , EMBOSS)
该软件包 中包括多个双序列比对程序, 其中最为常用的是整 体比对程序 needle, 局部比对程序 water, 以及基于点 阵图的 dottup dotmatcher 。EMBOSS 软件包基于 Linux 系统开发 可免费下载安装在 Linux 服务器上, 用命令行方式运行程序

常用计分矩阵

DNAfull 是常用计分矩阵之一

由于该矩阵元素沿主对角线对称分布 原 始矩阵中主对角线右上方的元素不再列出。 其次 ,根据四种核苷酸的类别将它们分组。 第一组为 A、 T、G、C 四种确定的核苷酸 匹配分值为 5, 错配分值为-4

BLOSUM62矩阵

与核苷酸计分矩阵 DNAfull 类似 主对角线右 上方的元素不再列出。 基于侧链性质将二十种氨基 酸分组, 分组原则与图 氨基酸分类基本一致 五 个疏水脂肪族氨基酸丙氨酸 A、 缬氨酸 V、 亮氨酸 L、异亮氨酸 和甲硫氨酸 分在一组 两个侧链带羟基的氨基酸( 丝氨酸 和苏氨酸 T) 分在一组 门冬酰胺 N 和谷氨酰胺 Q、 门冬氨酸 和谷氨酸 E四个氨基酸分在一组;带正电的三个氨基酸组氨酸 H、赖氨酸 K 和精氨酸 R 分在一组;三个芳香族氨基酸
苯丙氨酸 F、 酪氨酸 和色氨酸 W) 分在一组 半胱氨酸 C、 脯氨酸 和甘氨酸 性质独特 各自单独分在一组。 需要说明的是 酪氨酸侧链也有羟基 ,这一点与丝氨酸 S 和苏氨酸 接近 但其侧链苯环与苯丙氨酸 F 更加相似 因此将它们分在一组 ,同组的还有另一个芳香族氨基酸 W BLOSUM62 计分矩阵主对角线的 20 个矩阵元为相同氨基酸之间的分值,即匹配分值。 不同氨基酸的匹配分值有高有低,如色氨酸 W 为 11、半胱氨酸 C 为 9;有的较低,如四个脂肪族氨基酸(丙氨酸 A、缬氨酸 V、亮氨酸 L、异亮氨酸 I)和丝氨酸 S均为 4。 匹配分值的高低与该氨基酸的性质与丰度有关,也从某个侧面反映了该氨基酸的保守性(见表2) 。 分值越高,保守性越强,越不容易发生替换。除主对角线外的其它矩阵单元为不同氨基酸之间的替换分值,即错配分值。 错配分值有正有负,范围在 3 到-4 之间,其中大部分为零或负值。 错配分值的高低与两个氨基酸之间的性质有关。 两者之间性质差别越大,越不容易发生替换,错配分值也就越低,如第一列半胱氨酸 C 与谷氨酸 E、最后一行色氨酸 W 与脯氨酸 P 之间的错配分值均为-4。 同组内氨基酸的错配分值相对较高,有的为正值,如缬氨酸V 和异亮氨酸 I 错配分值为 3,亮氨酸 L 和异亮氨酸I 的错配分值为 2,这是因为它们侧链比较相似,容易发生替换。

 

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号