赞
踩
使用BUSCO的结果来训练Augustus包括以下几个步骤。这些步骤会帮助你利用BUSCO评估的高质量基因来优化Augustus的基因预测模型。
步骤1:运行BUSCO
首先,你需要运行BUSCO来评估你的基因组或转录组。BUSCO会生成一些包含高质量单拷贝直系同源基因的信息文件,这些文件可以用来训练Augustus。
sh
复制代码
busco -i <input_file> -o <output_directory> -l <lineage_dataset> -m
<input_file>:输入文件,可以是基因组序列或者转录组序列。
<output_directory>:输出目录,BUSCO会在这里生成结果。
<lineage_dataset>:使用的系统发育谱系数据集(例如,arthropoda_odb10)。
:模式,可以是genome, transcriptome, 或 protein。
步骤2:准备训练数据
BUSCO完成后,它会在输出目录中生成一些结果文件,其中包括run_/augustus_output/retraining_parameters目录,里面包含用于重新训练的初始参数。
sh
复制代码
cd <output_directory>/run_/augustus_output/retraining_parameters
这个目录下有几个文件,尤其是extrinsic.tbl和train.gb,它们对于训练Augustus很重要。
步骤3:训练Augustus
你需要使用这些文件来训练Augustus。首先,创建一个新的物种目录来存储新训练的参数。例如,如果你的物种名是“new_species”,那么你需要创建一个目录:
sh
复制代码
new_species=“new_species”
augustus_config_path=$(dirname
(
w
h
i
c
h
a
u
g
u
s
t
u
s
)
)
/
.
.
/
c
o
n
f
i
g
s
p
e
c
i
e
s
p
a
t
h
=
"
(which augustus))/../config species_path="
(whichaugustus))/../configspeciespath="{augustus_config_path}/species/${new_species}"
mkdir -p $species_path
然后将BUSCO生成的文件复制到这个目录:
sh
复制代码
cp <output_directory>/run_/augustus_output/retraining_parameters/augustus_parameters.cfg $species_path/
cp <output_directory>/run_/augustus_output/retraining_parameters/extrinsic.cfg $species_path/
cp <output_directory>/run_/augustus_output/retraining_parameters/train.gb $species_path/
接下来,运行Augustus的训练脚本:
sh
复制代码
new_species=“new_species”
augustus --species=
n
e
w
s
p
e
c
i
e
s
−
−
A
U
G
U
S
T
U
S
C
O
N
F
I
G
P
A
T
H
=
{new_species} --AUGUSTUS_CONFIG_PATH=
newspecies−−AUGUSTUSCONFIGPATH=augustus_config_path --train=train.gb --utr=on --noprediction > train.out
这会生成训练好的参数文件。在训练完成后,你需要对新参数进行测试和验证。
步骤4:测试新参数
使用训练好的新物种参数运行Augustus进行基因预测,看看结果是否比默认参数有显著改进。
sh
复制代码
augustus --species=${new_species} <input_genome_fasta>
总结
通过这些步骤,你可以使用BUSCO的结果来训练Augustus,从而提高基因预测的准确性。重要的是,在每个步骤中都要仔细检查输出和日志文件,确保训练过程没有出现错误。如果有任何问题,可以参考BUSCO和Augustus的官方文档获取更多帮助。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。