当前位置:   article > 正文

深度学习基因组学+机器学习单细胞分析,当下最火热研究方向!_深度学校对基因的差异化分析

深度学校对基因的差异化分析

 深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现,过去10年,深度学习在计算机视觉、语音识别、自然语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和转化医学的进度。,近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology等知名国际顶刊上,为我们发表顶刊鉴定了基础。

         细胞生物学的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行学习、建模,很好的解决了数据不足的问题。同样在最近的研究中,机器学习方法使用单细胞数据进行扰动建模也推动了细胞生物领域前进。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化。整个过程需要对干预工具的构建、导入、实验观察,从而得出表型结论。扰动建模的目的就是想要通过数学模型的建立,通过对已有数据的分析、归纳和总结,对一个分子的功能在没有实验时做出预判,对于生物学家和药物研发者来讲,好的模型一定能够帮助加深对生物机制的理解,推动药物的研发进程

一、深度学习在基因组学应用专题

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

  1. 1.     基因组数据库

  2. 2.     表观基因组

  3. 3.     转录基因组

  4. 4.     蛋白质组

  5. 5.     功能基因组

实操内容

基因组常用深度学习框架

  1. 1.     安装并介绍深度学习工具包tensorflow, keras,pytorch

  2. 2.     在工具包中识别深度学习模型要素

  3. 2.1.数据表示

  4. 2.2.张量运算

  5. 2.3.神经网络中的“层”

  6. 2.4.由层构成的模型

  7. 2.5.损失函数与优化器

  8. 2.6.数据集分割

  9. 2.7.过拟合与欠拟合

  10. 3.基因组数据处理

  11. 3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

  12. 3.2使用keras_dna设计深度学习模型

  13. 3.3使用keras_dna分割训练集、测试集

  14. 3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

  1. 1.      Chip-Seq中识别基序特征G4,如DeepG4

  2. 2.      Chip-Seq中预测DNA甲基化,DeepSEA

  3. 3.      Chip-Seq中预测转录调控因子结合,DeepSEA

  4. 4.      DNase-seq中预测染色体亲和性,Basset

  5. 5.      DNase-seq中预测基因表达eQTL,Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

  1. 1.      复现DeepG4从Chip-Seq中识别G4特征

  2. 2.      安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变

  3. 3.      复现Basset,从Chip-Seq中预测染色体亲和性

  4. 4.      复现Enformer,从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

  1. 1.      SNP微阵列中预测拷贝数变异CNV,DeepCNV

  2. 2.      RNA-Seq中预测premiRNA,dnnMiRPre

  3. 3.      从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

  1. 1.      复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

  2. 2.      复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

  3. 3.      复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

  1. 1.      从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

  2. 2.      从高维多组学数据中识别疾病表型,XOmiVAE

  3. 3.      基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

  1. 1.      复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

  2. 2.      复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

  3. 3.      复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天

理论部分

深度学习在预测药物反应机制上的应用

  1. 1.      联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

  1. 1.      预处理药物分子结构信息

  2. 2.      计算药物相似性

  3. 3.      在不同数据集上构建self-attention SWnet

  4. 4.      评估self-attention SWnet

  5. 5.      构建多任务的SWnet

  6. 6.      构建单层SWnet

  7. 7.      构建带权值层的SWnet

案例图

二、机器学习单细胞分析应用专题

第一天

理论部分

1.单细胞测序原理

2.单细胞测序基础

3.单细胞测序方法及数据

4.单细胞数据分析流程

实操内容

1.R语言基础

2.R(4.1.3)和Rstudio的安装

3.R包安装和环境搭建

4.数据结构和数据类型

5.R语言基本函数

6.数据下载

7.数据读入与输出

第二天

理论部分

1.机器学习概述

2.线性模型

3.决策树

4.支持向量机

5.集成学习

6.模型选择与性能优化

实操内容

1.决策树算法实现

2.随机森林算法实现

3.支持向量机(SVM)算法实现

4.朴素贝叶斯算法实现

5.Xgboost算法实现

6.主成分分析PCA算法实现

7.聚类算法实现

8.DBSCAN算法实现

9.层次聚类算法实现

第三天

理论部分

1.多组学基础

2.常用生物组学实验与分析方法

3.常用组学数据库介绍

4.批量处理组学数据

5.生物功能分析

6.基于转录组学的差异基因筛选,疾病预测

7.基于差异基因联合多组学分析疾病发生机制

8.组学数据可视化

实操内容

1.Linux操作系统

2.Linux操作系统的安装与设置

3.网络配置与服务进程管理

4.Linux的远程登录管理

5.常用的Linux命令

6.在Linux下获取基因数据

7.利用Linux 探索基因组区域

8.Shell script与Vim编辑器

9.基因组文件下载与上传

10.Linux权限管理

11.文件的身份

12.修改文件的所有者和所属组

13.修改文件权限

第四天

理论部分

1.单细胞分析中的常见机器学习方法

2.降维聚类的机器学习算法

3.分群注释的机器学习算法

4.单细胞分析中常见的深度学习方法

5.降维聚类的深度学习算法

6.分群注释的深度学习算法

实操内容

1.Python语言基础

2.python安装与开发环境的搭建

3.基本数据类型组合数据类型

4.分析环境搭建

5.Jupyter notebook的使用

6.函数、列表、元组、字典、集合

7.控制结构、循环结构

8.Numpy模块——矩阵的科学计算

9.Matplotlib模块——数据处理与绘图

10.Pandas模块——csv数据处理与分析

11.Sklearn模块——机器学习模型基础软件包调用

第五天

理论部分

1.机器学习在单细胞分析中的应用

2.收集数据

3.数据准备

4.选择一个模型

5.模型训练

6.模型评估

7.参数调整

8.模型预测

实操内容

1.创建Seurat对象

2.数据质控

3.测序深度差异及标准化

4.单细胞数据降维

5.批次效应去除

6.数据整合

7.亚群注释

8.GSVA通路活性分析

9.单细胞富集分析

第六天

理论部分

1.深度学习在单细胞分析中的应用

2卷积神经网络基本构成

3.卷积核

4.循环神经网络基本构成

5.循环核

6.图神经网络基本构成

实操内容

1.卷积神经网络在单细胞分析的算法实现

2.循环神经网络在单细胞分析的算法实现

3.图神经网络在单细胞中分析的算法实现

4.单细胞数据的自动注释

5.单细胞数据分析聚类与批量效应

6.单细胞测序数据进行聚类

7.加权图神经网络的细胞类型注释方法

8.单细胞表达数据中深度学习基因关系

案例图片:

三、单细胞空间转录组分析专题

第一天

单细胞测序技术与应用

理论内容:

1.单细胞组学研究简介

2.单细胞转录组测序技术进展及其原理:1992\2009-至今

3.单细胞多组学和空间转录组技术简要介绍;

4.单细胞转录组测序技术的常见应用和重要的生物学问题的探索;

4.单细胞主要数据库介绍。

实操内容:

1. Linux命令入门讲解及实操训练。

2. R语言简介及安装。

3. R语言简单语法及常见命令。

4. 数据挖掘及其统计应用的原理。

5. R语言实操画图ggplot2为主简单实操。

第二天

单细胞转录组数据分析思路及流程以及数据分析实操

单细胞转录组数据分析思路及流程以及数据分析实操

理论内容:

1. 单细胞实验介绍,常见建库结构(以10*建库为例)。

2. 单细胞转录组Pipeline软件和代码介绍。

3. 单细胞转录组转录因子及其细胞通讯介绍。

4. 单细胞组学在肿瘤、发育、免疫及其它等领域的研究思路介绍。

实操内容:

1. 10X官方单细胞软件Cellranger讲解及实操;

2.质控基因和细胞;

3.选取高可变基因;

4.降维与分群;

5.Biomarker定义细胞类型;

6.寻找差异基因;

6. 通过Seurat 合并多样本及消除样本异质性;

7. 通过harmony合并多样本及其消除样本异质性。

第三天

单细胞转录组轨迹、通路、转录因子、hdWGCNA等分析及绘图实操

实操内容:

1. 通过Monocle软件对单细胞转录组进行拟时序的分析。

2. 对单细胞各个簇进行通路的功能富集分析。

3. 通过GSVA给细胞通路打分等。

4. 利用cellchart软件对细胞互作进行分析。

5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(也就是模块)。

6. 全面解析SCENIC软件进行转录因子预测分析。

理论内容:

1. 空间转录组技术的介绍。

2. 空间转录组技术的应用。

3. 空间转录组文章图表的解读。

5. 空间转录组技术在癌症、发育、神经科学等领域的研究思路。

第四天

1.       空间转录组数据比对、降维以及聚类等分析

2.       空间转录组多样本及与但单细胞数据关联分析

实操内容:

1. 10x Visium 组织优化及文库制备。

2. 10x Visium官方分析软件Space Ranger讲解及实操。

3. Space Ranger输出结果解读。

4. Loupe Browser软件安装及使用。

5. 通过Seurat软件进行降维、聚类和可视化。

6. 通过Seurat进行基因表达可视化。

理论+实操内容

1. 通过Seurat进行空间变量特征的识别。

2. 与单细胞数据关联分析(空间细胞类型定义)

3. 通过Seurat处理多个切片。

4. 单细胞及空间转录组数据分析总结。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/131752
推荐阅读
相关标签
  

闽ICP备14008679号