赞
踩
(我已经尝试过在
biostar上问过这个问题了,但是由于文本挖掘中的某个人认为有更好的解决方案的可能性很小,我也在这里重新发布)
我试图实现的任务是对齐几个序列.
我没有匹配的基本模式.我所知道的只是“真实”模式的长度应为“30”,并且我在随机点引入了缺失值的序列.
这是一个这样的序列的例子,在左边我们看到了缺失值的真实位置,在右边我们看到了我们能够观察到的序列.
我的目标是仅使用我在右栏中获得的序列重建左列(基于每个位置中的许多字母相同的事实)
Real_sequence The_sequence_we_see
1 CGCAATACTAAC-AGCTGACTTACGCACCG CGCAATACTAACAGCTGACTTACGCACCG
2 CGCAATACTAGC-AGGTGACTTCC-CT-CG CGCAATACTAGCAGGTGACTTCCCTCG
3 CGCAATGATCAC--GGTGGCTCCCGGTGCG CGCAATGATCACGGTGGCTCCCGGTGCG
4 CGCAATACTAACCA-CTAACT--CGCTGCG CGCAATACTAACCACTAACTCGCTGCG
5 CGCACGGGTAAGAACGTGA-TTACGCTCAG CGCACGGGTAAGAACGTGATTACGCTCAG
6 CGCTATACTAACAA-GTG-CTTAGGC-CTG CGCTATACTAACAAGTGCTTAGGCCTG
7 CCCA-C-CTAA-ACGGTGACTTACGCTCCG CCCACCTAAACGGTGACTTACGCTCCG
以下是重现上述示例的示例代码:
ATCG
set.seed(40)
original.seq
seqS
change.letters
{
number.of.changes
new.letters
where.to.change.the.letters
x[where.to.change.the.letters]
return(x)
}
change.letters(original.seq)
insert.missing.values
insert.missing.values(original.seq)
seqS2
seqS3
seqS4
require(stringr)
# library(help=stringr)
all.seqS
# how do we allign this?
data.frame(Real_sequence = seqS4,The_sequence_we_see = all.seqS)
我明白,如果我所拥有的只是一个字符串和一个模式,我就可以使用
library(Biostrings)
pairwiseAlignment(...)
但在我提出的情况下,我们正在处理许多序列以相互对齐(而不是将它们与一个模式对齐).
在R中有没有已知的方法?
谢谢,
塔尔
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。