赞
踩
次级代谢物基因簇数据库BAGEL4、antiSMASH、PRISM
次级代谢产物,或称天然产物,是由生物体产生的化合物,对于机体的正常生长不是必不可少的。这些次级代谢产物中有许多在医药、农业等领域起着重要的作用。近年来,基因组挖掘方法已被广泛应用于鉴定和表征生物合成基因簇。
本篇列举三个在次级代谢物基因簇研究中常用的数据库,包括BAGEL4、antiSMASH、PRISM(2年前我接触微生物基因组分析时用过这3个数据库,把当年整理的笔记翻一翻,水个推文吧),可通过它们查询目标类型的基因簇或次级代谢产物资源,以及实现对目标基因组序列的注释。
BAGEL4
BAGEL4是一个在线数据库,帮助我们挖掘并可视化原核生物基因组中参与核糖体合成的和翻译后修饰的多肽(RiPPs)以及产细菌素的基因簇。网站还提供了整合RNA-Seq数据,启动子和终止子预测功能,以及建立了与外部数据库(如UniProt、NCBI)的链接。我们能够很方便地使用它研究原核生物基因组。
BAGEL4之前还有3个版本,BAGEL4是目前最新的,链接:http://bagel.molgenrug.nl/index.php/databases
基因簇在线注释
注释数据库包括uniref90数据库的原核部分,并扩展了先前BAGEL3的蛋白数据库,其记录了RiPPs的共有蛋白结构域信息。
进入BAGEL4网站主界面后,点击下方的绿色按钮“Start BAGEL Analysis”,跳转新界面,上传我们的基因组即可,fasta文件格式。允许上传多个文件,最多可以上传50 Mb。
可选同时上传RNA表达数据,详见界面链接“BedGraph Track”中的说明。
提交后等待几分钟,差不多就能看到结果了。
注意当前任务结束之前,是无法提交下一个任务的。不过如上述,可以一次提交多个基因组。
点击AOI中的条目,查看预测到的基因簇。
如下展示了BAGEL4产生的示例图,展示了基因簇的结构。基因显示为箭头,颜色代表了类型,并通过鼠标悬停显示描述信息(包括指向BLAST的链接)。在左侧可下载本次分析的结果文件。
如果在上传基因组时,同时提供了RNA表达数据,将在底部(蓝色)展示基因表达谱,如下所示。
核心肽在线BLAST
BAGEL4提供了核心肽数据库,方便我们通过在线BLAST的方法鉴定核心肽。18年BAGEL4文章发表时,包含近500种RiPP(Bacteriocin I),230种未修饰的细菌素(acteriocin II)和90种抗菌蛋白(Bacteriocin III),且仍在不断更新中,大多数提供了NCBI或UniProt可用查询。
对于上传的fasta文件,因为数据库中的参考序列肯定是蛋白序列,而我们寻找的也是核心肽段,所以推荐直接上传基因编码的蛋白序列,会比上传核酸序列更高效且准确。
这个BLAST过程很快就出结果了。
结果中展示了目标序列间的序列比对详情,同时标注出有关修饰和桥接模式信息,数据库记录的前导肽以深灰色突出显示,修饰的残基以星号表示。
其它相关链接
在BAGEL4中点击上方“Links”,可以跳转先前的版本,以及相关的其它同样可用于注释基因簇的数据库或软件。
antiSMASH
antiSMASH旨在分析基因组的次级代谢产物合成基因簇,包含细菌、真菌和植物。自2011年首次发布以来,antiSMASH已成为次级代谢物基因组挖掘的标准工具,并且可能是目前使用最广泛的工具。目前,antiSMASH数据库已经更新到v3版了(看官网最近一次更新是在2020-09-15),提供了更新的SANDPUMA检测规则、ClusterBlast数据库链接、TTA密码子预测、NRPS-A域预测、萜类的分类以及MIBiG的改进链接。
antiSMASH使用基于规则聚类检测,通过核心生物合成酶来鉴定45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合酶(nonribosomal peptide synthases)、I型聚酮化合物(type I polyketides)、萜类(terpenes)、羊毛硫肽(lanthipepteptides)、硫肽(thiopeptide),半乳糖肽(sactipepteptides)和套索肽(lassopepteptes),antiSMASH还提供了对它们生物合成基因簇(BGC)产物的更详细的预测。antiSMASH使用内置的ClusterBlast算法,将识别的目标簇与antiSMASH数据库中已知簇进行比较;KnownClusterBlast算法将识别的目标簇与MIBiG数据库中已知簇进行比较。直系同源组(smCoG)分类的次级代谢产物簇用于为预测的基因簇中的基因产物分配功能。
数据库资源检索
链接:https://antismash-db.secondarymetabolites.org/
通过该数据库我们可以很方便地检索已知的基因簇资源。
点击“Query”输入关注的特定基因簇类型名称执行检索即可,将展示数据库中所有存在该基因簇的物种(如果检索到),再点击目标物种查看细节。
以及通过物种检索基因簇,点击“Browse”根据物种分类查找关注的细菌物种,或者直接输入物种拉丁名查询,将展示数据库中该物种基因组中的基因簇信息(如果检索到)。之后再点击目标基因簇查看细节。
基因簇在线注释
在线注释链接:http://antismash.secondarymetabolites.org/
支持细菌、真菌和植物基因组的次级代谢产物基因簇预测,这里以某细菌基因组为例。推荐上传gbk或embl格式的基因组文件(如果有的话),因为它们相较于fasta文件内容齐全,如蛋白编码基因序列是已知的,注释更加准确。
提交后等待运行就可以了,允许同时打开多个页面提交任务。
对于细菌这种小基因组注释的话也就十分钟不到就结束了。
“Overview”展示了该基因组中所有鉴定到的次级代谢产物基因簇的概要信息,包含了其在基因组中的位置、与数据库中最相似的基因簇名称、相似度及功能。右上方点击“Download”下载本次对基因组在线注释的所有结果文件。
点击某特定的基因簇,将展示其详细信息,包括该基因簇中所包含的基因结构及类型等。点击其中的基因区段,右方将展示出对该基因的描述。图中点击右上方“Download region GenBank file”可单独下载该基因簇的注释结果。
下方则展示了不同的算法所鉴定到的结构特征。
基因簇本地注释
antiSMASH同时提供了本地版本,并打包了一些列的工具,供我们在本地注释基因组。
本地配置教程:https://docs.antismash.secondarymetabolites.org/install/
例如,通过bioconda安装和使用。
- #根据官方文档,在 conda 中创建 antismash 环境
- conda create -n antismash antismash
-
- #激活 antismash 环境,配置 antiSMASH 数据库
- conda activate antismash
- download-antismash-databases
- conda deactivate
-
- #使用“source activate”加载 antismash 环境,并查看帮助文档
- source activate antismash
- antismash -h
-
- #注释基因组,例如使用 gbk 格式的基因组数据(如下示例文件 my_input.gbk),或者 fasta 格式的基因组序列(如下示例文件 my_input.fasta)
- #推荐使用 gbk
- antismash my_input.gbk
- #antismash my_input.fasta
-
- #运行完时记得“source deactivate”退出antismash 环境
- source deactivate antismash
PRISM
PRISM用于识别生物合成基因簇,预测遗传编码的非核糖体肽、I型和II型聚酮化合物以及已知天然产物的合成基因。PRISM实施了新颖的算法,通过一个包含479个隐马尔可夫模型的库识别与天然产物生物合成和抗性相关的酶域,并将其归类为假定的生物合成基因簇。
PRISM链接:http://grid.adapsyn.com/prism/#!/prism
基因簇在线注释
每次登陆PRISM时,都需要先输入一次邮箱,才可使用。
之后上传基因组文件,设定好参数后提交任务。推荐上次gbk格式的基因组文件(如果有的话),因为它相较于fasta文件内容齐全,如蛋白编码基因序列是已知的,注释更加准确。我们这里同样以某细菌的gbk格式的基因组文件为例。
提交成功后,会往你邮箱(登陆时输入的那个)里发送邮件,需要点开邮件确认任务执行,注意每个邮箱的使用次数是有限的。确认后,等待运行就可以了,这个网站运行的比较慢,要等十几分钟。
在此期间,不要再使用新窗口打开PRISM,不然会要求你重新输入邮箱登陆,此时,先前正在执行的任务也将会全部丢失。所以,PRISM一次只能等待当前任务结束后才能提交下一个。
结束后,展示了基因组中所有鉴定到的基因簇的结构和类型概要。
从中点击某簇,查看详情。展开对基因簇的结构和功能,以及其中所含基因的类型及编码产物的详细描述。
原文链接:https://mp.weixin.qq.com/s/VCqroZkRhjYPDWqvaNuZWQ
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。