赞
踩
Reference URL
https://biopython.org/DIST/docs/api/Bio.pairwise2-module.html (Bio官方文档)
https://www.biostars.org/p/307285/ (论坛关于Bio中Align部分的问题)
http://www.ryxxff.com/91470.html (Biopython序列比对简要概括)
https://www.jianshu.com/p/f9179c517d4e(山东大学生物信息学教程)
选择的序列是冠状病毒envelop的gene序列
>NC_002645.1:24750-24983 Human coronavirus 229E, envelop genome
ATGTTCCTTAAGCTAGTGGATGATCATGCTTTGGTTGTTAATGTACTACTCTGGTGTGTGGTGCTTATAG
TGATACTACTAGTGTGTATTACAATAATTAAACTAATTAAGCTTTGTTTCACTTGCCATATGTTTTGTAA
TAGAACAGTTTATGGCCCCATTAAAAATGTGTACCACATTTACCAATCATATATGCACATAGACCCTTTC
CCTAAACGAGTTATTGATTTCTAA
>NC_045512.2:26245-26472 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, envelop genome
ATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCG
TGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGATTGTGTGCGTACTGCTGCAATATTGT
TAACGTGAGTCTTGTAAAACCTTCTTTTTACGTTTACTCTCGTGTTAAAAATCTGAATTCTTCTAGAGTT
CCTGATCTTCTGGTCTAA
URL:http://www.bioinformatics.nl/emboss-explorer/
网站概览:
设定“word size = 2”,得到的结果如下,并不能观察到直观的关系。
设定“word size = 3”,得到的结果如下,仍然不能观察到直观的关系。但是已经比之前要稀疏很多了。
小结:实际上如果只用gene序列的话,可能出现太宽泛的问题,因为很多的蛋白都有不止一个codon,所以我们进一步采用对蛋白质进行探究。
使用Biopython库对原序列进行翻译,得到结果,重新进行dotplot。阈值设定为2。
两条序列通过BLOSUM的打分政策,通过积分和罚分的方式,最终得到两条序列的最终打分,中间的打分过程则需要用到最优化(optimal processing)。
由于不可能所有的匹配都是按顺序的,所以中间需要适时进行空位罚分,从而进行一些Global内部的Local化。以下是两种罚分的方式。
参考https://www.cnblogs.com/zhengjm/p/12602522.html
以上的结果都是基于在线端实现的,下面我们使用了本地化的Bio库进行了运算,可以弥补批量运算的缺陷。但是经过实地测试,如果出现长序列的pairwis
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。