赞
踩
自己写的笔记
1.WGS和WES
基因检测对明确诊断遗传缺陷病有重要意义,在疾病表型特异度不高,表型基因型对应不明确的情况下,WES-trio是寻找致病基因阳性率最实用的方法之一。WES-trio的阳性率约为30-40%,在一项检测胎儿结构异常的回顾性分析中,234组除外染色体结构异常(chromosomal microarray)的家系进行了WES检测,明确致病突变的家系占10%,另外有20%家系找出了生物信息学分析可能影响功能但是致病证据不充分的突变[1]。目前的许多研究没有详细区分可能影响功能的致病变异和明确导致发病的致病变异,一起笼统的算为阳性检出。
为了进一步提高基因检测的阳性率,随着二代测序成本下降WGS也开始被应用于临床,目前的WGS技术也包含一部分三代测序技术,包括长读长测序和从头到尾测序,三代测序比二代测序在显示染色体结构变异上更有优势但单核苷酸检测的准确性远不如二代测序。现在专家共识认可在临床上应用的WGS是~40X的二代测序技术,和WES比有更高的捕获率和非编码区覆盖度。虽然WGS在提高阳性率上被寄予厚望,但是WGS比WES提高的阳性率并不明显。
对108例WES阴性的样本进行WES的数据重分析以及WGS相对比,WGS只提高了7%(7例)的阳性率,其中4例的变异在WES中也被检测到,但是在分析过程中因为某种原因被过滤,只有3例是仅通过WGS检测到的,这3个变异均位于外显子区[2]。在另一个存在潜在基因缺陷的儿童队列中(n=103),WGS的阳性率是41%。其中70个病人同时进行了WES和WGS, 在这部分病人中有26个病人WES发现了致病变异(37.1%),35个病人WGS发现致病变异(50%),这35个病人包含WES阳性的26个病人。WGS多发现的9个变异分别是2个深度内含子区SNV,2个小CNV,1个非编码RNA,2个线粒体DNA和2个WES覆盖度低的外显子SNV[3]。这两项研究的结果表明WGS比WES致病变异检出率高的优势主要在于捕获率高容易发现CNV和WES捕获率低的区域变异,非编码区测序带来的优势不明显。这可能是由于内含子区变异的注释难度高,难以分析其致病性,在WES和WGS的数据分析中非编码区SNVs的均被过滤到致病变异的候选表格之外。实际上GWAS通过连锁不平衡发现的疾病相关变异有88%在非编码区,45%在内含子区,43%在基因间的非编码区[4]。所以总结一下非编码区SNVs致病性。
2.内含子SNVs影响mRNA可变剪接
实际上内含子和外显子的SNV都有可能影响可变剪切,在mRNA的水平影响功能。RNA-seq是验证变异影响mRNA前体剪接的直接方法,但是涉及额外的成本和组织采集,这里讨论DNA序列。
Gelfman等设计了一个Transcript-inferred Pathogenicity (TraP)评分评价iSNV和同义突变对转录本的影响。评分结果是0-1,<0.459认为是良性变异,0.459≤TraPscore< 0.93为中等致病范围,≥0.93极有可能影响最终转录本[5]。TraP评分是一个在线工具,网址:http://trap-score.org/ 搜索输入格式为ENSG编号、基因名称、区域或者变异位点,输出除了TraP评分还有相关疾病,clivar和uniprot链接之类。TraP评分良性和致病位点区分度很高,99%的良性位点得分在0.18以下,所有良性位点得分在0.37以下;所有致病位点的评分均在0.459以上,平均得分0.8;作者说明对已经明确是良性/致病的位点准确度非常高。
SpliceAI(python)可以预测某一个位点在mRNA前体中是剪接供体,受体或两者皆非。SpliceAI是一个包含32层的神经网络模型,分析内容包括侧翼的10000个碱基,可以应对剪接供体受体距离很大的情况。预测对接近外显子的位置预测准确度高,深度内含子区准确率低。可变剪接有组织特异性,强隐形剪接变异可以无视表观遗传学背景强行改变剪接位点,弱变异只能让剪接更接近既定的边界。所以score >0.8的变异更可能无视组织特异性,score 0.35–0.8的低度和中度位点可能受组织特异性影响[6]。SpliceAI可以用pip或者conda安装,GitHub:https://github.com/Illumina/SpliceAI 输入文件是变异列表的VCF,只能是单核苷酸变异或者一个碱基的indel。另外也能输入核苷酸序列。
还有别的很多预测方法但是TraP评分网页版用起来方便,发到nature communication上,SpliceAI发到cell...
3.分支位点(branch point,BP)影响剪切
BP是内含子3’端上游的短motif,当强BP变成弱BP或者弱BP变成强BP时就会影响下游外显子的长度,并且有可能造成移码突变。Leman等评价了几个BP预测软件的准确度,Branchpointer在寻找3‘ss上游的保守和变异BP上准确率最高,分别是99.48%和65.84%。对于出现在BP区的变异对mRNA剪切的影响预测准确度最高的是BPP(89.17%)[7]。
BPP(Python脚本)是基于序列的算法[8],只能输入序列,下载用法见https://github.com/zhqingit/BPP 最强的BP是TACTAAC,BP一般出现在内含子3’ss上游21-100bp。得分没有明确分界值,序列中最高点被认为是BP。
Branchpointer (Bioconductor) 输入变异位置列表或者SNP,输出BP评分,作者推荐cutoff值是0.52。R语言方便作图。下载用法见https://www.bioconductor.org/packages/release/bioc/html/branchpointer.html
应用例子:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6597203/
两个在线BP预测工具:HSF http://www.umd.be/HSF3/
SVM-BPfinder http://regulatorygenomics.upf.edu/Software/SVM_BP/ 。
4. 启动子和增强子
主要靠GWAS...摘抄点新献的文献
1)Loss-of-function tolerance of enhancers in the human genome[9]
2)Comprehensive In Vivo Interrogation Reveals Phenotypic Impact of Human Enhancer Variants[10]
1. Petrovski S, Aggarwal V, Giordano JL, Stosic M, Wou K, Bier L, et al. Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study. Lancet. 2019;393(10173):758-67. Epub 2019/02/05. doi: 10.1016/S0140-6736(18)32042-7. PubMed PMID: 30712878.
2. Alfares A, Aloraini T, Subaie LA, Alissa A, Qudsi AA, Alahmad A, et al. Whole-genome sequencing offers additional but limited clinical utility compared with reanalysis of whole-exome sequencing. Genet Med. 2018;20(11):1328-33. Epub 2018/03/23. doi: 10.1038/gim.2018.41. PubMed PMID: 29565419.
3. Lionel AC, Costain G, Monfared N, Walker S, Reuter MS, Hosseini SM, et al. Improved diagnostic yield compared with targeted gene sequencing panels suggests a role for whole-genome sequencing as a first-tier genetic test. Genet Med. 2018;20(4):435-43. Epub 2017/08/05. doi: 10.1038/gim.2017.119. PubMed PMID: 28771251; PubMed Central PMCID: PMCPMC5895460.
4. Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, et al. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci U S A. 2009;106(23):9362-7. Epub 2009/05/29. doi: 10.1073/pnas.0903103106. PubMed PMID: 19474294; PubMed Central PMCID: PMCPMC2687147.
5. Gelfman S, Wang Q, McSweeney KM, Ren Z, La Carpia F, Halvorsen M, et al. Annotating pathogenic non-coding variants in genic regions. Nat Commun. 2017;8(1):236. Epub 2017/08/11. doi: 10.1038/s41467-017-00141-2. PubMed PMID: 28794409; PubMed Central PMCID: PMCPMC5550444.
6. Jaganathan K, Kyriazopoulou Panagiotopoulou S, McRae JF, Darbandi SF, Knowles D, Li YI, et al. Predicting Splicing from Primary Sequence with Deep Learning. Cell. 2019;176(3):535-48 e24. Epub 2019/01/22. doi: 10.1016/j.cell.2018.12.015. PubMed PMID: 30661751.
7. Leman R, Tubeuf H, Raad S, Tournier I, Derambure C, Lanos R, et al. Assessment of branch point prediction tools to predict physiological branch points and their alteration by variants. BMC Genomics. 2020;21(1):86. Epub 2020/01/30. doi: 10.1186/s12864-020-6484-5. PubMed PMID: 31992191; PubMed Central PMCID: PMCPMC6988378.
8. Zhang Q, Fan X, Wang Y, Sun MA, Shao J, Guo D. BPP: a sequence-based algorithm for branch point prediction. Bioinformatics. 2017;33(20):3166-72. Epub 2017/06/22. doi: 10.1093/bioinformatics/btx401. PubMed PMID: 28633445.
9. Xu D, Gokcumen O, Khurana E. Loss-of-function tolerance of enhancers in the human genome. PLoS Genet. 2020;16(4):e1008663. Epub 2020/04/04. doi: 10.1371/journal.pgen.1008663. PubMed PMID: 32243438.
10. Kvon EZ, Zhu Y, Kelman G, Novak CS, Plajzer-Frick I, Kato M, et al. Comprehensive In Vivo Interrogation Reveals Phenotypic Impact of Human Enhancer Variants. Cell. 2020;180(6):1262-71 e15. Epub 2020/03/15. doi: 10.1016/j.cell.2020.02.031. PubMed PMID: 32169219.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。