赞
踩
在各类基因组高通量测序的研究软件当中,GATK(Genome analysis toolkit)可谓是当红大明星,尤其是GATK的haplotypecaller组件,现在已是重测序变异挖掘的最优选择。虽然相比于其他用于变异识别的软件来说haplotypecaller所用的时间相对来说更长一些,但并不妨碍它始终占据最佳变异识别软件的宝座。
GATK haplotypecaller“吃的是bam,挤出的是vcf”,将序列比对文件转化成标准变异格式文件,可以说非常省心了。并且vcf文件中包含的内容非常详尽,包括位点的位置、变异前后的碱基、位点的基因型、变异的质量值等等,我们可以方便地利用它进行后续的各种分析。不过有的时候,这些信息也会让我们有小小的迷惑。对于一个个体的变异信息来说,大多数位点要么只有一种reads支持(MAF=0,纯合突变/无突变),要么两种reads大致各占一半(MAF=0.5,杂合突变)。但是有时候,我们在仔细研究vcf文件的AD值的时候,会发现有一些位点明明有两种reads,其中一种reads的占比却比较低(MAF值比较低但不为0)。并且更加奇妙的是,可能MAF值差不多的两个位点,haplotypecaller给出的基因型却不一样。例如下图中的两个位点,一个MAF值约为0.048,被判定为0/0(无突变),另一个MAF值约为0.064,被判定为0/1(杂合突变)。好奇的你有没有想过,这到底是为什么?haplotypecaller是怎么计算出这些位点的基因型的?
两个位点的GT和AD信息(来源于真实数据)
其实haplotypecaller的工作原理正像它的名字一样,是通过识别单倍型(haplotype)来确定各个位点的基因型的。其主要工作流程包含4个主要的步骤:识别高变区、组装单倍型、计算似然值、分配基因型。下面我们结合GATK官方给出的流程图来一探究竟。
1 识别高变区 haplotypecaller主要针对高变区进行单倍型识别,那么第一步就是要识别基因组中发生活跃变化的区域。 这一步的运算通过滑窗方法进行,计算一个区域内的碱基错配、插入缺失以及soft-clip带来的熵值,并将超过阈值的区域提取出来进行后续计算。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。