当前位置:   article > 正文

论文解读:Deep-Kcr: accurate detection of lysine crotonylation sites using deep learning method

deep-kcr: accurate detection of lysine crotonylation sites using deep learni

Deep-Kcr:使用深度学习方法准确检测赖氨酸巴豆酰化位点

论文期刊:Briefings in Bioinformatics

doi: 10.1093/bib/bbaa255 

代码链接:https://github.com/linDing- group/Deep-Kcr

关键点:

1.对六种特征编码方案进行了系统的比较,并利用IG特征选择方法获得了优化的特征集

2.提出了一种新的基于深度学习的Kcr站点预测方法Deep Kcr

整体的文章框架:

数据集

该数据集包括HeLa细胞中3734种组蛋白的14311个Kcr位点。在使用UniProt IDs从UniProt数据库下载所有上述蛋白质序列后,使用CD-HIT程序通过将序列同一性阈值设置为30%来去除冗余样本。然后,处理后的序列被截短成31个残基长的序列片段,其中K位于中心。如果一个片段的中心K是巴豆酰化,则该片段被定义为阳性样本;否则,它被定义为阴性样本。结果,获得了大量阴性样品。为了平衡正数据和负数据,我们随机的从非冗余阴性样本中选择相同数量的阳性样本序列。在完成所有这些之后,获得了9964个阳性样本和9964个阴性样本。非冗余数据集按照7:3的比例随机分为训练数据集和独立测试数据集。

特征编码方案

采用有效的特征编码方法是产生性能良好的预测器的关键步骤

本文使用六种类型的特征编码方案将蛋白质片段转换为特征向量

第1组:基于序列的特征

CKSAAP

CKSAAP反映了氨基酸对之间的短程相互作用,以K=0为例,有400个0间距残基对(即AA、AC、AD、…、YY)。可以使用以下公式计算特征向量:

基于CKSAAP的特征向量的总维数为400×6 = 2400

PWAA

 基于PWAA的特征向量维数为20

第2组:基于物理化学性质的特征

AAindex 

基于12种不同的理化性质,特征向量维度为31*12=372

CTD

最初用于预测蛋白质折叠类别,所有的氨基酸按照极性、中性和疏水性分为三类。根据每个氨基酸所属的类别,将其编码为1,2或3.

T表示一种天然氨基酸与另一种氨基酸之间的百分比评率

 D测量每种类型的20种天然氨基酸的第一、25、50、75和100%的各自位置

 

 基于CTD的特征向量维数为147。

EBGW

 

                        

 基于ebgw的特征向量的维度为3×15=45

第3组:数字空间衍生信息

Word2Vec

Word2Vec是一个自然语言处理(NLP)系统,它利用神经网络模型在语料库中创建单词的分布式表示。出现在相同文档中的单词具有相同的语义。这意味着单词被嵌入到一个连续的向量空间中,在这个空间中,“语义相似”的单词之间的距离更近。Word2Vec包括两个模型体系结构:一个是连续词袋(CBOW)模型,另一个是连续跳图模型。CBOW模型的基本原理是根据一个词的上下文在一个周围的窗口来预测这个词,而连续跳图模型的基本原理是用一个词来预测它的周围的词,基于word2vec的特征向量的维数为200。

深度神经网络

CNN结构由由输入层、卷积层、最大池化层和输出层组成。

卷积层定义为32个神经元,kernel_size=3,stride=1,选择relu作为激活函数

池化层 pool_size=2,stride=2

模型评估

为了评估所提出方法的预测性能,进行了10倍交叉验证。根据不同阈值的特异性和敏感性,计算并绘制ROC曲线。

 结果

为了确定KCR是否存在结构偏好,采用NetSurfP对正负样本进行结构分析。结果显示,约50%的kcr位点位于α螺旋中,10%位于β链中,其余40%位于无序的螺旋中。KCR蛋白K残基的分布模式与非KCR蛋白K残基的分布模式没有显著差异,由于区分阳性和阴性样本的能力较弱,不应选择KCR蛋白的结构信息作为编码方式。

为了进一步提高模型的预测性能,将提取的特征组合成3184维特征向量。

 与在原始特征集上训练的模型(所有AUC均低于0.8484)相比,在融合特征集上训练的模型取得了更好的性能(AUC=0.8671),这表明特征融合策略在预测Kcr站点方面是有效的。

 

比较基于训练集和独立集的不同分类器的性能

基于训练集和独立集测试,我们提出的方法和其他现有工具的AUC值

讨论

本文提出了一种基于卷积神经网络的深度学习方法,该方法将基于序列的特征、基于物理化学性质的特征和数值空间信息与信息增益特征选择方法相结合来识别组蛋白Kcr位点。不同特征编码方案、不同分类器的预测性能以及与现有工具的比较表明了该方法的鲁棒性和有效性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/710794
推荐阅读
相关标签
  

闽ICP备14008679号