当前位置:   article > 正文

使用ColabFold预测蛋白结构

colabfold

0. 参考

[1] Mirdita, Milot et al. “ColabFold: making protein folding accessible to all.” Nature methods vol. 19,6 (2022): 679-682. doi:10.1038/s41592-022-01488-1
[2] https://github.com/sokrypton/ColabFold

1. 准备:

1.0 需要有Google账号以及Google Drive。

1.1 选择一种预测方法 (以批量预测结构的AlphaFold2_batch为例):

在这里插入图片描述

2. 具体过程:

2.1 在Google Drive中新建input_fasta/目录和result/目录;

2.2 将待预测结构的氨基酸序列文件 (.fasta,也可以是MSA文件) 放到input_fasta/目录下 (一个.fasta文件中只有一条序列);

2.3 按步骤逐步运行即可:

2.3.1 挂载Google Drive:Mount google drive
2.3.2 参数设置:Advanced settings (这一部分我只修改了每个模型的迭代次数,即num_recycles 以及 使用amber对预测结构进行动力学模拟,即use_amber)
2.3.3 安装依赖:Install dependencies
2.3.4 开始预测:Run Prediction

3. 最终结果:

最终预测结果会存放在result/目录下,包括以下内容:

红框标记的为最优结构,各文件具体含义详见论文:Mirdita, Milot et al. “ColabFold: making protein folding accessible to all.” Nature methods vol. 19,6 (2022): 679-682. doi:10.1038/s41592-022-01488-1
在这里插入图片描述

4. 备注:

1. ColabFold的预测速度是比较理想的 (长度200左右的短肽序列耗时大概半小时左右,num_recycles=12);

2. 预测效果也不错,和本地版AlphaFold2预测的效果不相上下(num_recycles=12);

3. 需要注意是:

3.1 Google Colab 不能保证免费的计算资源一直可用 (因为免费的GPU能否使用不太确定,因此建议尽量白天使用,晚上6点之后就不太稳定了);

3.2 中途网络不能断掉太长时间 (大约超过1h),否则Colab会因为长时间未连接而终止预测 (短时间断掉后及时连上就可以);

3.3 对于某些很长的序列 (>800),运行之前需要修改运行时类型,否则会因为内存不足导致预测终止,具体过程:右侧“连接”处点开下拉框,选择 “修改运行时类型”为“高RAM”

在这里插入图片描述

3.4 免费的计算资源用时过长的话,Colab会提示已经达到免费使用的最高额度,解决办法是:终止一段时间(~4h左右) 或者 开通Colab Pro购买计算资源($9.99/month)。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号