当前位置:   article > 正文

AlphaFold学习心得_alphafold的ipa

alphafold的ipa

AlphaFold

1 原特点

输入:氨基酸序列。每一个位置的元素代表了链上的一个氨基酸单元。

处理结果:处理后的数据是每一个氨基酸单元和其下一个氨基酸单元在空间中的夹角,用2维数据(φ, ψ),也就是距离与夹角对描述在三维空间的相对位置。

输出:预测出的可视化拓扑结构

2 算法思路

2.1 特征抽取

首先是输入人源的蛋白质氨基酸序列信息分为三个路径进行处理:

1、将序列输入基因数据库搜索相似蛋白序列,一一对应。之后组合为三维张量(s,r,c)将信息作为MSA(多序列对比)板块加入Evoformer板块,以提出相似蛋白质不同序列的特征。

2、蛋白质氨基酸序列两两配对组成三维张量(r,r,c)输入Evoformer板块提取氨基酸之间的关系信息。

3、将序列放入结构数据库进行搜索,找出氨基酸对之间的空间距离信息作为模板。

2.2 编码器(Evoformer)

    Evoformer板块由48块组成,抽提上一步所得数据的信息。

Evoformer块组成

 

2.2.1 序列信息

首先进入自注意力模块(有残差连接)

 

数据进入按行的带门的注意力机制(按对偏移):MSA中每一行作为序列,对每一个元素做投影得到querise和keys进行点乘计算相似度之后加上pair bias(对之间的信息线性投影)通过Softmax计算自注意力权数,之后将自注意力权数与values(元素做投影)相乘得到输出(output)。以上流程运行多次后并起输出,与gating(元素线性投影通过sigmoid函数得到)做点乘后,做线性投影得到输出,更新MSA这一行的值。

 

数据再进入按列的带门的注意力机制,这一板块与按行的带门的注意力机制几乎一样,区别在于这个板块是提取每一列里面的序列信息且没有对信息作为pair bias加入其中。

 

MSA信息加入一个全连接层并投影到4倍大小,之后通过ReLU激活函数,再投影到原来大小,输入MSA作为新数值。得到的数值一方面输出MSA,一方面加入序列对信息的计算。

 

2.2.2氨基酸对的信息

接下来的是序列对信息的板块:

 

MSA的信息将两个不同氨基酸之间的信息(列)通过全连接层投影为二维矩阵,之后做外积变为三维张量(s,1,c),做点乘得到(s,c,c,)。之后在s上取氨基酸信息的均值得到(c,c)矩阵,矩阵线性投影为向量加入相应的氨基酸对序列信息。

 

把输入数据z投影到c的维度,通过sigmoid函数(担任gating)。氨基酸对对应的行也是做线性投影后与gating做点乘后相互点乘。之后加和通过layerNorm后再线性投影,通过gating,作为对应部位的新数值。Triangular multiplicative update using  outgoing  edges与Triangular multiplicative update using  incoming  edges结构几乎一致,同理。

同样与前面的按行的带门的注意力机制十分相似,计算方式也十分相似。但相比于前面的序列相似度,更加注意氨基酸对之间的关系(角的关系)。Triangular self-attention around starting node和Triangular self-attention around ending node和前面按行按列的关系几乎一致。

 

信息加入一个全连接层并投影到4倍大小,之后通过ReLU激活函数,再投影到原来大小作为新数值。(此部分与MSA模块结构一致)

2.3 解码器(Structure module)

接收编码器的相关信息后进行蛋白质氨基酸在3D空间中的预测,最后输出3D可视化结构。该部分由8个以下的板块组成。

 

将氨基酸对的信息与序列的信息加入IPA板块,一是整合计算得出新的氨基酸信息,之后预测整个主干的各部分夹角与原子所在位置;还有一条预测主干部分的旋转与偏移。序列更新序列信息与主干的信息进入下一块继续预测调整。最后综合得出蛋白质的3D结构。

  以下为IPA算法板块:

2.4 回收(Recycling)

将Evoformer与Structure module的输出再次回收输入Evoformer,再次循环做调整。(梯度不反传)

3 个人感想

AlphaFold大致由三个模块组成,同时带有回收机制,可以对于模型进行不断的修整与调节。其中涉及的算法以及细节较多,以及个人水平有限,因此没有做出较为全面的分析。

其中有一些板块与一些比较经典的模型比较相似。如Evoformer与Transformer,但相对来说也有较多的改进。比如:其中按行的带门的注意力机制设置十分巧妙。将序列的相似度信息加上序列对之间的信息(pair bias)再加以计算,可以综合性的考虑序列之间的关系。

但总体来说,AlphaFold 采用了生物信息学和物理结合的方法进行蛋白质结构预测,其预测模型也取得了原子级别精度的成就,虽然也疑似有预测结果不稳定的问题,但其本身对于蛋白质结构预测而言有着巨大的意义。

4 相关链接:

Alphafold2论文链接:https://www.nature.com/articles/s41586-021-03819-2

AlphaFold2开源地址:https://github.com/deepmind/alphafold

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
  

闽ICP备14008679号