赞
踩
数据:
write.table(Markers,file="C:/Users/Administrator/Desktop/dataset/Markers.txt",row.names= F,quote = F)
Error in is.data.frame(x) : object ‘Markers’ not found
> write.table(wheat_example,file="C:/Users/Administrator/Desktop/dataset/Markers.txt",row.names= F,quote = F)
> write.table(wheat_example, file="C:/Users/Administrator/Desktop/datasetmydata.csv",sep=",",row.names=F)
>
> write.table(wheat_example, file="C:/Users/Administrator/Desktop/dataset/mydata.csv",sep=",",row.names=T)
>
> write.table(wheat_example, file="C:/Users/Administrator/Desktop/dataset/mydata.csv",sep=",",row.names=F)
> ls()
[1] “D” “G” “partitions” “pheno” “wheat_example” “X”
[7] “zjgene”
> write.table(D,file="C:/Users/Administrator/Desktop/dataset/D.csv",sep=",",row.names=F)
> write.table(pheno,file="C:/Users/Administrator/Desktop/dataset/pheno.csv",sep=",",row.names=F)
> write.table(G,file="C:/Users/Administrator/Desktop/dataset/G.csv",sep=",",row.names=F)
> write.table(partitions,file="C:/Users/Administrator/Desktop/dataset/partitions.csv",sep=",",row.names=F)
> head(zigene)
Error in head(zigene) : object ‘zigene’ not found
> head(zjgene)
[1] “X” “G” “D” “pheno” “partitions”
> write.table(X,file="C:/Users/Administrator/Desktop/dataset/X.csv",sep=",",row.names=F)
> traindata = paste (X,pheno, sep = "")
> ls()
[1] “D” “G” “partitions” “pheno” “traindata” “wheat_example”
[7] “X” “zjgene”
> write.table(traindata,file="C:/Users/Administrator/Desktop/dataset/traindata.csv",sep=",",row.names=F)
摘要:
动机基因组选择(GS)是一种新的育种策略,通过该策略,通常使用常规统计模型基于基因组范围的基因组标记预测数量性状的表型。然而,GS预测模型通常做出强有力的假设并进行线性回归分析,限制了它们的准确性,因为它们不能捕获基因型内以及基因型和表型之间的复杂,非线性关系。
结果我们提出了一种深度学习方法,名为DeepGS,用于预测基因型的表型。使用深度卷积神经网络,DeepGS使用隐藏变量,在进行预测时联合表示基因型标记中的特征; 它还采用卷积,采样和丢失策略来降低高维标记数据的复杂性。我们使用大型GS数据集来训练DeepGS并将其性能与其他方法进行比较。就平均归一化折现累积增益值而言,在选择排名靠前的1%具有8个测试性状的高表型值的个体时,DeepGS比传统神经网络实现了27.70%~246.34%的增加。此外,与广泛使用的方法RR-BLUP相比,DeepGS仍然产生1.44%至65.24%的相对改善。通过广泛的模拟实验,我们还证明了DeepGS对缺少异常个体和基因型标记子集的有效性和稳健性。最后,我们用集成学习方法说明了DeepGS和RR-BLUP的互补性,以进一步提高预测性能。
基因组选择(GS),最初由Meuwissen 等人提出。(2001)用于动物育种,被认为是一种有前途的育种范例,通过使用全基因组标记更好地预测多基因性状的植物或作物表型(Bhat,et al。,2016 ; Desta和Ortiz,2014 ; Jonas和De Koning) ,2013 ; 波兰和Rutkoski,2016年)。与表型和传统的基于标记的选择不同,GS具有在种植前预测个体的表型性状值,在进行杂交之前估计个体的育种值,以及特别是减少育种周期的时间长度的固有优势。 (Desta和Ortiz,2014年 ; Jannink,et al。,2010 ; Jonas和De Koning,2013年 ; Yu,et al。,2016)。最近,针对作物物种,即小麦,玉米,水稻和木薯,推出了几个GS项目(Guzman 等,2016 ; Marulanda,等,2016 ; 波兰和Rutkoski,2016 ; Spindel,等,2015))。然而,GS在实际作物育种领域的应用仍处于初期阶段,主要是因为它必须克服在高维数据集中进行准确预测的强有力方法的要求,其中基因型标记(p)的数量远大于人口规模(n)(p >> n)(Crossa,et al。,2017 ; Desta and Ortiz,2014 ; Jannink,et al。,2010 ; Schmidt,et al。,2016)。
已经为GS开发了各种统计模型,包括基于BLUP(最佳线性无偏预测)的算法,例如岭回归BLUP(RR-BLUP)(Endelman,2011)和基因组关系BLUP(GBLUP)(VanRaden,2008)。和基于贝叶斯的算法,例如Bayes A,Bayes B,BayesCπ和Bayes LASSO(De Los Campos 等,2009 ; Meuwissen 等,2001)。然而,在不同的统计模型中,经常观察到预测精度的变化不大(Roorkiwal 等,2016 ; Varshney,2016))。此外,统计模型通常做出强有力的假设并执行线性回归分析。一个代表性的例子是常用的RR-BLUP模型,该模型假设所有标记效应都是正常分布的,具有小但非零的方差,并且预测来自基因型标记的线性函数的表型(Xu和Crouch,2008)。因此,基于传统统计方法的GS模型不仅必须面对与标记数据的高维度相关的统计学挑战,而且难以捕获基因型内的复杂关系(例如,标记之间的多重性),以及基因型和基因型之间的复杂关系。表型(例如,基于环境的特征相互作用的基因型)(Crossa,et al。,2017 ;Van Eeuwijk,et al。,2010)。因此,迫切需要新的方法来增强GS及其在植物育种中的潜力。
深度学习(DL)是最近开发的机器学习技术,其提供具有许多高级特征的良好预测能力,其中之一是深层多层神经网络架构。在深层多层神经网络中,大量神经元被用于捕获大数据(大数据集)中的复杂非线性关系(LeCun 等,2015)。与传统的语音识别,图像识别和自然语言处理模型相比,DL已经证明能够提高预测性能(LeCun,et al。,2015)。然而,最近,DL引起了系统生物学家的注意,他们已成功将其应用于几个预测问题:基因表达的推断(Chen,et al。,2016 ; Singh,et al。,2016),遗传变异的功能注释(Quang,et al。,2015 ; Quang和Xie,2016 ; Xiong,et al。,2015 ; Zhou和Troyanskaya,2015),蛋白质折叠的识别(Jo,et al。,2015 ; Wang,et al。,2016)和增强子的基因组可及性预测(Kelley 等,2016)(Kim,et al。,2016 ; Liu,et al。。,2016),以及DNA和RNA结合蛋白(Alipanahi 等,2015 ; Zeng 等,2016 ; Zhang,et al。,2016)。这些在计算生物学和系统生物学领域的成功应用已经证明DL具有从生物学数据中学习复杂关系的强大能力(Angermueller,等人,2016 ; Min,et al。,2017)。然而,就我们所知,DL在GS领域的应用尚未得到研究。
在这项研究中,我们提出了一种名为DeepGS的DL方法,通过使用深度卷积神经网络(CNN)来预测基因型的表型。与传统的统计模型不同,DeepGS可以自动“学习”来自训练数据集的基因型和表型之间的复杂关系,而不需要神经网络中各种变量的预定义规则(例如,正态分布,非零方差)。为了避免CNN过度拟合,DeepGS还利用DL技术的优势,通过使用卷积,采样和丢失策略降低维数来降低高维标记数据的复杂性。我们使用来自CIMMYT(国际玉米和小麦改良中心)的小麦GS数据(2,000个个体×33,709个标记; 8个表型性状),培训DeepGS并将其性能与其他型号的性能进行比较。交叉验证实验结果表明,DeepGS在预测所有8种测试性状的表型值方面优于传统的前馈神经网络。在选择具有高表型值的个体时,DeepGS也比广泛使用的GS方法RR-BLUP具有优势。进一步的模拟实验表明,DeepGS在选择具有高表型值的个体时仍然具有优于RR-BLUP的优势,即使没有异常个体和基因型标记子集也是如此。我们还提出了一种集成学习方法,用于线性组合DeepGS和RR-BLUP的预测,以进一步提高预测性能。这些结果表明,DeepGS可用作RR-BLUP的补充,用于选择具有高表型值的个体。DeepGS已作为开源R软件包实施。
2方法
2.1 GS数据集
本研究中使用的GS数据集来自CIMMYT的小麦基因库,该基因库由2,000个伊朗面包小麦(Triticum aestivum)地方品种组成,其基因型为33,709 DArT(Diversity Array Technology)。对于DArT标记,等位基因由1或0编码,以分别指示其存在或不存在。这些种质中的每一种都针对八种性状进行了表型分析:谷粒长度(GL),谷粒宽度(GW),谷粒硬度(GH),千粒重(TKW),测试重量(TW),十二烷基硫酸钠 - 沉降(SDS) ,谷物蛋白(GP)和植物高度(PHT)。有关此GS数据集的更多信息已在最近发表的论文中提出(Crossa,et al。,2016)。完整的基因型和标准化表型数据集可以从http://genomics.cimmyt.org/mexican_iranian/traverse/iranian/standarizedData_univariate.RData获得。
2.2 10倍交叉验证
交叉验证已被用于评估GS模型的预测性能(Crossa 等,2016 ; Gianola和Schon,2016 ; Qiu,等,2016 ; Resende,等,2012)。在这项研究中,使用了10倍交叉验证,其中整个GS数据集中的个体首先被随机分成10组,大小大致相等。使用来自9个组的个体的基因型和表型数据训练和验证GS模型(90%个体用于训练组; 10%个体用于验证组)。随后应用训练的GS模型仅使用基因型数据来预测来自剩余组(测试组)的个体的表型性状值。该过程重复10次,直到每组用于测试一次; 预测的表型性状值最终结合起来进行性能评估。
用于选择具有高表型值的个体的每个GS模型的预测性能通过测量来评估:平均标准化折扣累积增益值(MNV)(Blondel 等,2015)。给定n个个体,预测和观察到的表型值形成n ×2的分数对矩阵(X,Y)。用于选择排名最高的k个体的MNV 可以以迭代方式计算:
其中,d(i)= 1 /(log 2 i + 1)是位置i处的单调递减折扣函数; Ý(ÿ)是我个观察到的表型值的值ý降序排列,这里排序ÿ(1,ÿ)≥ Ý(2,ÿ)≥…≥ Ý(Ñ,ÿ); y(i,X)是分数对中Y的对应值(X,Y)表示预测得分X的第 i 个值,按降序排序。因此,当所有观察到的表型值都大于零时,MNV的范围为0到1; 更高的MNV(k,X,Y)表示GS模型的更好性能,以选择具有高表型值的排名最高的k个体
2.3基于岭回归的线性无偏预测(RR-BLUP)
RR-BLUP是GS中使用最广泛且最强大的回归模型之一(Bhering 等,2015 ; Huang 等,2016 ; Wimmer 等,2013)。给定基因型矩阵Z(n × p ; n个体,p个标记)和相应的表型载体Y(n ×1),使用标准线性回归公式建立GS模型:
其中,μ是表型载体Y的平均值,g(p ×1)是标记效应的向量,ε(n ×1)是随机残留效应的向量。脊内回归算法用于同时估计所有基因型标记的影响,假设g(p ×1)中的标记效应遵循正态分布范数嵌入式图像 具有小但非零的方差 嵌入式图像(Desta和Ortiz,2014 ; Endelman,2011 ; Riedelsheimer,et al。,2012 ; Whittaker,et al。,2000)。我是单位矩阵,嵌入式图像是g的方差。使用R包“rrBLUP”中的“mixed.solve”函数实现RR-BLUP模型
2.4 DeepGS模型
DeepGS模型使用DL技术 - 深度卷积神经网络(CNN)和8-32-1架构构建; 这包括一个输入层,一个卷积层(八个神经元),一个采样层,三个丢失层,两个完全连接的层(32个和一个神经元)和一个输出层(图1)。输入层接收1× p矩阵中给定个体的基因型标记,其中p是基因型标记的数目。第一个卷积层用8个内核过滤输入矩阵,每个内核大小为1×18,步幅大小为1×1,接着是1×4最大池层,步长大小为1×4。 max-pooling层以0.2的速率传递到dropout层,以减少过度拟合(Srivastava,et al。,2014)。在丢失层之后使用具有32个神经元的第一个完全连接的层将卷积字符以0.1的丢失率连接在一起。非线性有源函数 - 整流线性单元(ReLU)应用于卷积和第一完全连接层。然后将第一完全连接层的输出馈送到第二完全连接层,其具有一个神经和0.05的丢失率。通过使用线性回归模型,第二完全连接层的输出最终连接到输出层,输出层呈现所分析的个体的预测的表型值。
对于每次交叉验证,DeepGS都在训练集上进行了训练,并在验证集上进行了验证。DeepGS中的参数通过反向传播算法(Rumelhart 等,1986)进行优化,将时期数设置为6,000,将学习速率设置为0.01,将动量设置为0.5,将wd设置为0.00001。我们最小化的损失函数是平均绝对误差(Mae)指数:
其中,m表示在训练数据集的个体的数目,和预测ķ和OBS ķ代表预测和观察到的表型值ķ 个分别独立。
配置:
DeepGS是使用基于图形处理单元(GPU)的DL框架MXNet(版本0.7.0; https://github.com/dmlc/mxnet)实现的; 它运行在GPU服务器上,该服务器配备了四个NVIDIA GeForce TITAN-XGPU,每个都有12GB内存和3072个CUDA(计算统一设备架构)内核。
2.5线性组合RR-BLUP和DeepGS的集成GS模型
使用集合学习方法构建集成的GS模型(I),通过线性组合DeepGS(D)和RR-BLUP(R)的预测,使用以下公式:
对于10折交叉折叠程序的每个折叠,使用粒子群优化(PSO)算法在相应的验证数据集上优化参数(W D和W R),该算法是通过激发鸟类植绒或鱼类学校教育的社会行为而开发的。 (Kennedy和Eberhart,1995)。PSO具有在候选解决方案的非常大的空间上并行搜索的能力,而无需对正在优化的问题做出假设。使用PSO算法的参数优化的细节在补充信息中给出。
2.6本研究中的统计分析
Pearson的相关系数(PCC)和相应的显着性水平(p值)用R编程语言(https://www.r-project.org)中的函数“cor.test”计算。使用R函数“t.test”的学生t检验检查配对样本之间差异的显着性水平。
3结果
3.1 DeepGS优于传统的神经网络和随机选择
为了使用神经网络算法执行基于回归的GS,我们感兴趣的是基于**DL的神经网络模型(DeepGS)**是否比传统的神经网络模型更强大。为了解决这个问题,使用matlab函数“feedforwardnet”构建了一个三层,完全连接的前馈神经网络(FNN),其中还有一个8-32-1架构(即8个节点中的8个节点)。第一个隐藏层,第二个隐藏层中有32个节点,输出层中有一个节点)。在FNN中,一层中的节点完全连接到下一层中的所有节点。进行10倍交叉验证以评估DeepGS和FNN用于使用33,709 DArT标记预测8种测试性状的表型值的性能。
对于粒长(GL)的性状,PCC分析显示这两个GS模型已经预测了与观察到的表型值显著相关的表型值(学生t检验; p值<1.00E-69)(图2A) -2B)。然而,DeepGS的PCC值(0.745)明显高于FNN(0.378)(图2A-2B)。相应地,与FNN相比,DeepGS的预测具有显着更低的绝对误差(配对样本t检验; p值<2.00E-66)(图2C)。
图2.
DeepGS和FNN用33,709 DArT标记预测小麦籽粒长度的表现。
(A)观察到的表型值与DeepGS的预测表型值(B)FNN的点图比较。(C)观察到的和预测的表型值之间的绝对误差的箱线图。(D)DeepGS,FNN和随机选择的MNV曲线,排名靠前的α从1%增加到100%。
MNV进一步用于评估DeepGS和FNN GS模型的性能,以选择具有高粒长的个体。DeepGS模型的MNV(0.430.68)明显高于基于FNN的GS模型(0.330.40)(配对样本t检验; p值<7.50E-91),排名靠前的α从1%增加到100%(图2D)。DeepGS和FNN都具有明显高于随机选择(0~0.0040)产生的MNV。在随机选择实验中,个体随机排序从1到2,000,并且该过程重复100次,其为每个给定的α产生100MNV 。这100个MNV的平均值用于量化给定α的随机选择的最终性能。对于正在研究的其他七个特征,我们还观察到性能遵循以下顺序:DeepGS> FNN>随机选择(补充图S1)。在排名最高的α = 1%的水平上,DeepGS对FNN的MNV改善可高达74.37%,58.98%(α = 1%),89.10%(α = 2%),62.49%(α = GL,GW,GH,TKW,TW的18%),86.92%(α = 15%),158.68%(α = 3%),150.92%(α = 8%)和445.71%(α = 8%) ,SDS,GP和PHT。
总之,这些结果表明,DeepGS优于FNN和随机选择,用于预测八种测试性状的表型值。
3.2 DeepGS优于RR-BLUP,用于选择具有高表型值的个体
对于所研究的八种性状中的每一种,我们进行了10次交叉验证,以评估RR-BLUP和DeepGS用于选择具有高表型值的个体的性能。配对样本t检验分析显示,当α在1%至100%范围内时,除PHT外,所有测试性状的DeepGS模型的MNV显着高于RR-BLUP(表1 ; 图3A)。在MNV中,DeepGS相对于RR-BLUP的相对改善可高达19.94%(α = 1%),23.72%(α = 1%),3.60%(α = 5%),36.11%(α = 1%) ),37.34%(α = 1%),6.15%(α = 2%),15.70%(α对于GL,GW,GH,TKW,TW,SDS,GP和PHT,分别为(1%)和65.24%(α = 1%)(表1)。这些结果表明,DeepGS优于RR-BLUP,特别是对于选择具有八种测试性状的极高表型值的个体。
DeepGS和RR-BLUP对8种测试性状的预测性能。“集成”表示集成的GS模型。“ p值”表示MNV改善的显着性水平。
对于八种测试性状,DeepGS和RR-BLUP上的集成GS模型的MNV改进。
(A)MNV改善的箱线图,排名靠前的α从1%增加到100%。
(B)MNV改善曲线,排名靠前的α从1%增加到100%。
考虑到DeepGS和RR-BLUP使用不同的算法来构建基于回归的GS模型,我们怀疑这两种方法可能捕获基因型和表型之间关系的不同方面。因此,DeepGS和RR-BLUP的预测组合可以有助于提高性能。正如预期的那样,就MNV而言,通过配对样本t检验,当排名靠前的α在1%到100%之间时,综合GS模型对所有测试性状也获得了比RR-BLUP显着更高的性能(表1 ; 图3B))。显然,集成的GS模型大大提高了RR-BLUP和DeepGS对GP和PHT的预测性能(图3B))。与RR-BLUP相比,DeepGS改善GP的MNV为0.21%15.70%,PHT为-10.68%65.24%; 综合GS模型改善GP的MNV为3.25%29.48%,PHT为-1.53%67.04%(表1)。
这些结果表明,DeepGS可用作RR-BLUP模型的补充,用于选择具有高表型值的个体,用于所有八种测试性状。
3.3异常值个体及其对预测性能的影响
异常个体是对于研究中的特定性状具有极高或低表型值的个体。这些异常个体对于育种程序和在批量样本分析中鉴定性状相关基因是有价值的(Zou,et al。,2016)。我们对异常个体如何影响DeepGS和RR-BLUP模型的各自表现感兴趣。对于八个特征中的每一个,异常个体被定义为高于75%四分位数(Q3)加上四分位数范围的1.5倍(IQR = Q3-Q1)和低于25%四分位数(Q1)减去表型值IQR的1.5倍。我们分别为GL,GW,TW,GP和PHT移除了50,22,40,19和65个外围个体(补充图S2A))。这五个特征的其余个体用于评估RR-BLUP,DeepGS和使用10倍交叉验证方法的综合GS模型的性能。
我们观察到RR-BLUP和DeepGS对异常个体差异敏感。离群值的个体的去除改善RR-BLUP的MNVS在不同水平的α为GL(1%≤ α ≤100%),GW(1%≤ α ≤2%),TW(1%≤ α ≤100%) ,GP(1%≤ α ≤36%),除了PHT,并同时为DeepGS,更高的性能是明显为GL(1%≤ α ≤100%),TW(1%≤ α ≤100%),和GP(1 %≤ α ≤100%),除了GW和PHT(补充图S2B)。然而,在移除异常个体之后,DeepGS仍然产生了比RR-BLUP更高的预测性能,对于所有测试的五种性状在不同水平α:GL(1%≤ α ≤32%),GW(1%≤ α ≤100%),TW(1%≤ α ≤100%),GP(1%≤ α ≤100%),和PHT(1 %≤ α ≤15%)(表2 ; 图4)。在α = 1%的水平,相应的MNV改善可高达9.12%,5.46%,23.63%,54.50%和199.48 %(补充图S2C)。正如预期的那样,集成GS模型总是产生一较高的预测性能比它通过RR-BLUP在所有可能的级别的所有测试的5个性状α(1%≤ α ≤100%),除了PHT(1%≤ α ≤15 %)(图4 ;补充图S2C)。
在移除异常个体后,对于五个测试性状的DeepGS和RR-BLUP的预测性能。“集成”表示集成的GS模型。“ p值”表示MNV改善的显着性水平。
在移除异常个体后,DeepGS的MNV和集成的GS模型与RR-BLUP的MNV进行了比较。
红色(或绿色)中的每个点表示来自DeepGS和RR-BLUP(或来自集成GS模型和RR-BLUP)的一对MNV,其在α的顶级水平范围内从1%到100%。对角线上方的红色(或绿色)点表示与RR-BLUP相比,DeepGS(或集成的GS模型)实现了更高的MNV。除了GL(32个红点)和PHT(15个红点和15个绿点)之外,DeepGS的对角线上方有100个点,所有测试性状的综合GS模型都有。
这些结果表明,即使在省略异常个体后,DeepGS和整合的GS模型在选择具有所有测试性状的高表型值的个体时优于RR-BLUP。
3.4标记号对预测性能的影响
已经开发了各种技术平台来产生具有不同大小的基因型标记。据报道,基因型标记的数量对GS模型的预测性能具有显着影响(Heffner 等,2011)。在此分析中,我们检查了标记号对**RRBLUP,DeepGS和集成GS模型的预测性能的影响。对于八种测试性状中的每一种,使用不同数量的随机选择的标记在5,000,10,000和20,000进行10倍交叉验证实验。该过程重复10次,以产生每个标记号的给定α的 10MNV 。它们的平均值是GS模型的最终预测性能。
当使用20000个标记,DeepGS优于RR-BLUP为在不同层次的八个测试性状α:GL(1%≤ α ≤100%),GW(1%≤ α ≤28%),GH(1%≤ α ≤45%),TKW(1%≤ α ≤100%),TW(1%≤ α ≤100%),SDS(1%≤ α ≤1%),GP(1%≤ α ≤3%),和PHT(1%≤ α ≤3%)(图5A。 ; 。补充图S3A)。而对于整合的GS模型,对于除SDS之外的所有测试性状,可以观察到针对RR-BLUP的MNV改善。有趣的是,对于PHT ,MNV改善达到48.28%,排名最高的α = 1%(图5A; 补充图S3A)。
当使用标记子集时,针对8个测试性状的DeepGS和RR-BLUP的整合GS模型的改进。黑线代表中位数。
当标记号为20,000减少到10,000,观察到GL(1%≤DeepGS超过RR-BLUP的MNV改善α ≤100%),GW(1%≤ α ≤2%),TKW(1%≤ α ≤49%),GP(1%≤ α ≤4%),和PHT(1%≤ α ≤1%)(图5B。 ; 。补充图S3B)。而对于集成GS模型,是为GL产生的更高的性能(1%≤ α ≤100%),GW(1%≤ α ≤26%),GH(1%≤ α ≤29%),TKW(1% ≤ α ≤48%),TW(1%≤ α ≤79%),和PHT(1%≤ α ≤23%)(图5B。 ;补充图S3B)。
标记数量的进一步减少还揭示了DeepGS优于RR-BLUP在选择具有高表型值的个体中的优势(图5C ; 补充图S3C)。DeepGS产生了更高MNV比RR-BLUP为GL(1%≤ α ≤100%),GW(1%≤ α ≤17%),TKW(1%≤ α ≤47%),GP(α = 1%)和PHT(1%≤ α ≤2%)。综合GS模型进一步提高了GW,GH,TKW,SDS和GP的预测性能,在所有可能的α水平范围内从1%到100%,PHT在α水平范围从1%到73%(图5C)。
这些结果表明,即使使用33,709个标记的子集,DeepGS也优于RR-BLUP,并且可以用作RR-BLUP的补充,用于选择具有针对所有测试的8个性状的高表型值的个体。
4。讨论
GS目前正在彻底改变植物育种的应用,新的预测方法对于准确预测基因型的表型至关重要(Desta和Ortiz,2014 ; Jannink 等,2010 ; Jonas和De Koning,2013)。DL是最近开发的机器学习技术,它能够捕获隐藏在大数据中的复杂关系。在这项研究中,我们探索了DL在GS领域的应用。主要贡献如下:(1)我们成功应用DL技术构建了一种新的,稳健的GS模型,用于预测基因型的表型。(2)我们将DeepGS模型实现为开源R软件包“DeepGS”,从而提供了一个灵活的框架,以简化DL技术在GS中的应用。该R包还提供计算MNV的功能,并实现RR-BLUP模型以及交叉验证过程。(3)我们提出了一种集成学习方法,通过结合DeepGS和RR-BLUP的预测来获得更好的性能。
然而,DL的使用存在一些限制。
第一:适当的网络架构的设计对于预测性能是至关重要的,并且需要相当多的DL和神经网络知识。其次,卷积,采样,丢失和完全连接的层各有不同的超参数集,因此处理数据特征的不同部分(Angermueller,等,2016 ; 陈等,2016 ; Min,等人,2017),导致了解释和探索生物意义的挑战。然而,这是DL在计算生物学和生物信息学应用中的一般限制(Min,et al。,2017)。**最近开发的网络可视化系统,如ReVACNN(https://github.com/davianlab/deepVis)**deepViz(https://github.com/bruckner/deepViz),可能有助于深入了解此问题。
第二: 训练DeepGS需要大量的计算时间。虽然DeepGS是在配备NVIDIA GeForce TITAN-X GPU的GPU服务器上实现的,但仍然需要大约3.5小时才能对正在研究的小麦GS数据集中的单个特征执行10倍交叉验证程序。为了提高运行效率,用户可以在基于GPU的云平台上运行DeepGS,例如Amazon Elastic Compute Cloud(Amazon EC2; https://aws.amazon.com/ec2)或Google App Engine(https:// cloud.google.com/gpu)
总之,这项研究工作为DL技术在GS领域的应用开辟了一条新途径。在未来,我们将与人口遗传学家合作,并继续修改我们的DeepGS,使**其能够解释检测到的表型和基因型之间的关系。**此外,我们将与作物育种者合作,并在基于GS的小麦和其他重要作物育种计划中实施DeepGS的实际应用。
References
↵Alipanahi, B., et al. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat Biotechnol 2015;33(8):831–838.CrossRefPubMedGoogle Scholar
↵Angermueller, C., et al. Deep learning for computational biology. Mol Syst Biol 2016;12(7):878.Abstract/FREE Full TextGoogle Scholar
↵Bhat, J.A., et al. Genomic selection in the era of next generation sequencing for complex traits in plant breeding. Front Genet 2016;7:221.Google Scholar
↵Bhering, L.L., et al. Comparison of methods used to identify superior individuals in genomic selection in plant breeding. Genet Mol Res 2015;14(3):10888–10896.Google Scholar
↵Blondel, M., et al. A ranking approach to genomic selection. PLoS One 2015;10(6):e0128570.Google Scholar
↵Chen, Y., et al. Gene expression inference with deep learning. Bioinformatics 2016;32(12):1832–1839.CrossRefPubMedGoogle Scholar
↵Crossa, J., et al. Genomic prediction of gene bank wheat landraces. G3 (Bethesda) 2016;6(7):1819–1834.Google Scholar
↵Crossa, J., et al. Genomic selection in plant breeding: methods, models, and perspectives. Trends Plant Sci 2017;pii:S1360–1385(17)30184-X.Google Scholar
↵De Los Campos, G., et al. Predicting quantitative traits with regression models for dense molecular markers and pedigree. Genetics 2009;182(1):375–385.Abstract/FREE Full TextGoogle Scholar
↵Desta, Z.A. and Ortiz, R. Genomic selection: genome-wide prediction in plant improvement. Trends Plant Sci 2014;19(9):592–601.CrossRefPubMedGoogle Scholar
↵Endelman, J.B. Ridge regression and other kernels for genomic selection with R package rrBLUP. Plant Genome 2011;4(3):250–255.Google Scholar
↵Gianola, D. and Schon, C.C. Cross-validation without doing cross-validation in genome-enabled prediction. G3 (Bethesda) 2016;6(10):3107–3128.Google Scholar
↵Guzman, C., et al. Wheat quality improvement at CIMMYT and the use of genomic selection on it. Appl Transl Genom 2016;11:3–8.Google Scholar
↵Heffner, E.L., Jannink, J.L. and Sorrells, M.E. Genomic selection accuracy using multifamily prediction models in a wheat breeding program. Plant Genome 2011;4(1):65–75.Google Scholar
↵Huang, M., et al. Genomic selection for wheat traits and trait stability. Theor Appl Genet 2016;129(9):1697–1710.CrossRefGoogle Scholar
↵Jannink, J.L., Lorenz, A.J. and Iwata, H. Genomic selection in plant breeding: from theory to practice. Brief Funct Genomics 2010;9(2):166–177.CrossRefPubMedWeb of ScienceGoogle Scholar
↵Jo, T., et al. Improving protein fold recognition by deep learning networks. Sci Rep 2015;5:17573.CrossRefPubMedGoogle Scholar
↵Jonas, E. and De Koning, D.J. Does genomic selection have a future in plant breeding? Trends Biotechnol 2013;31(9):497–504.CrossRefPubMedGoogle Scholar
↵Kelley, D.R., Snoek, J. and Rinn, J.L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res 2016;26(7):990–999.Abstract/FREE Full TextGoogle Scholar
↵Kennedy, J. and Eberhart, R. Particle swarm optimization. IEEE Intl Conf Neural Netw 1995;4:1942–1948.CrossRefGoogle Scholar
↵Kim, S.G., et al. EP-DNN: a deep neural network-based global enhancer prediction algorithm. Sci Rep 2016;6:38433.Google Scholar
↵LeCun, Y., Bengio, Y. and Hinton, G. Deep learning. Nature 2015;521(7553):436–444.CrossRefPubMedGoogle Scholar
↵Liu, F., et al. PEDLA: predicting enhancers with a deep learning-based algorithmic framework. Sci Rep 2016;6:28517.CrossRefGoogle Scholar
↵Marulanda, J.J., et al. Optimum breeding strategies using genomic selection for hybrid breeding in wheat, maize, rye, barley, rice and triticale. Theor Appl Genet 2016;129(10):1901–1913.Google Scholar
↵Meuwissen, T.H.E., Hayes, B.J. and Goddard, M.E. Prediction of total genetic value using genome-wide dense marker maps. Genetics 2001;157(4):1819–1829.Abstract/FREE Full TextGoogle Scholar
↵Min, S., Lee, B. and Yoon, S. Deep learning in bioinformatics. Brief Bioinforms 2017;18(5):851–869.Google Scholar
↵Poland, J. and Rutkoski, J. Advances and challenges in genomic selection for disease resistance. Annu Rev Phytopathol 2016;54:79–98.Google Scholar
↵Qiu, Z., et al. Application of machine learning-based classification to genomic selection and performance improvement. ICIC 2016;9771:412–421.Google Scholar
↵Quang, D., Chen, Y. and Xie, X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics 2015;31(5):761–763.CrossRefPubMedGoogle Scholar
↵Quang, D. and Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res 2016;44(11):e107.CrossRefPubMedGoogle Scholar
↵Resende, M.F., Jr…, et al. Accuracy of genomic selection methods in a standard data set of loblolly pine (Pinus taeda L.). Genetics 2012;190(4):1503–1510.Abstract/FREE Full TextGoogle Scholar
↵Riedelsheimer, C., Technow, F. and Melchinger, A.E. Comparison of whole-genome prediction models for traits with contrasting genetic architecture in a diversity panel of maize inbred lines. BMC Genomics 2012;13:452.CrossRefPubMedGoogle Scholar
↵Roorkiwal, M., et al. Genome-enabled prediction models for yield related traits in chickpea. Front Plant Sci 2016;7:1666.CrossRefGoogle Scholar
↵Rumelhart, D.E., Hinton, G.E. and Williams, R.J. Learning representations by back-propagating errors. Nature 1986;323(6088):533–536.CrossRefWeb of ScienceGoogle Scholar
↵Schmidt, M., et al. Prediction of malting quality traits in barley based on genome-wide marker data to assess the potential of genomic selection. Theor Appl Genet 2016;129(2):203–213.Google Scholar
↵Singh, R., et al. DeepChrome: deep-learning for predicting gene expression from histone modifications. Bioinformatics 2016;32(17):i639–i648.CrossRefPubMedGoogle Scholar
↵Spindel, J., et al. Genomic selection and association mapping in rice (Oryza sativa): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines. PLoS Genet 2015;11(2): e1004982.CrossRefPubMedGoogle Scholar
↵Srivastava, N., et al. Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res 2014;15:1929–1958.CrossRefGoogle Scholar
↵Van Eeuwijk, F.A., et al. Detection and use of QTL for complex traits in multiple environments. Curr Opin Plant Biol 2010;13(2):193–205.CrossRefPubMedGoogle Scholar
↵VanRaden, P.M. Efficient methods to compute genomic predictions. J Dairy Sci 2008;91(11):4414–4423.CrossRefPubMedWeb of ScienceGoogle Scholar
↵Varshney, R.K. Exciting journey of 10 years from genomes to fields and markets: some success stories of genomics-assisted breeding in chickpea, pigeonpea and groundnut. Plant Sci 2016;242:98–107.CrossRefPubMedGoogle Scholar
↵Wang, S., et al. Protein secondary structure prediction using deep convolutional neural fields. Sci Rep 2016;6:18962.CrossRefPubMedGoogle Scholar
↵Whittaker, J.C., Thompson, R. and Denham, M.C. Marker-assisted selection using ridge regression. Genet Res 2000;75(2):249–252.CrossRefPubMedWeb of ScienceGoogle Scholar
↵Wimmer, V., et al. Genome-wide prediction of traits with different genetic architecture through efficient variable selection. Genetics 2013;195(2):573–587.Abstract/FREE Full TextGoogle Scholar
↵Xiong, H.Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science 2015;347(6218):1254806.Abstract/FREE Full TextGoogle Scholar
↵Xu, Y. and Crouch, J.H. Marker-assisted selection in plant breeding: from publications to practice. Crop Sci 2008;48(2):391.CrossRefWeb of ScienceGoogle Scholar
↵Yu, X., et al. Genomic prediction contributing to a promising global strategy to turbocharge gene banks. Nat Plants 2016;2:16150.Google Scholar
↵Zeng, H., et al. Convolutional neural network architectures for predicting DNA–protein binding. Bioinformatics 2016;32(12):i121–i127.CrossRefPubMedGoogle Scholar
↵Zhang, S., et al. A deep learning framework for modeling structural features of RNA-binding protein targets. Nucleic Acids Res 2016;44(4):e32.CrossRefPubMedGoogle Scholar
↵Zhou, J. and Troyanskaya, O.G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat Methods 2015;12(10):931–934.CrossRefPubMedGoogle Scholar
↵Zou, C., Wang, P. and Xu, Y. Bulked sample analysis in genetics, genomics and crop improvement. Plant Biotechnol J 2016;14(10):1941–1955.CrossRefGoogle Scholar
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。