当前位置:   article > 正文

数据库numeric_结合TCGA数据库进行生存分析

tcga数据库生存分析
一、TCGA数据

TCGA (The Cancer Genome Atlas)是由National Cancer Institute(NCI,美国国家癌症研究所)和National  Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。 
目前共收录了33种癌症类型,超过了2个PB的数据。
官方网站: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

二、生存分析

生存分析是研究影响因素与生存时间和结局关系的方法,常用于癌症患者预后分析,TCGA数据库中患者的临床信息非常适合来做生存分析,分析众多因素对生存期的影响。生存分析使用的方法:

  • Kaplan-Meier plots to visualize survival curves(根据生存时间分布,估计生存率以及中位生存时间,以生存曲线方式展示,从而分析生存特征,一般用Kaplan-Meier法,还有寿命法)

  • Log-rank test to compare the survival curves of two or more groups(通过比较两组或者多组之间的的生存曲线,用log rank检验,判断单因素是否对生存期的有显著影响)

  • Cox proportional hazards regression to describe the effect of variables on survival(用Cox风险比例模型来分析变量对生存的影响,既可以分析单个因素也能分析多因素对生存时间的影响)

基本术语

  • Event(事件):包括起始事件和终止时间,起始事件反应研究对象开始生存过程的起始特征事件。如患者开始接受治疗。终止事件指出现研究者所关心的特定结局,如患者死亡等。

  • Survival time(生存时间):一般指某个事件的开始到终止这段事件。

  • Censoring(删失):一般指不是由死亡引起的的数据丢失,可能是失访,可能是非正常原因退出,可能是时间终止而事件未发生等等,一般在展示时以‘+’号显示。

三、R分析实战

1、数据下载与预处理

从TCGA下载数据,这里使用R包TCGAbiolinks下载,它本质上也是从官网下载,大家也可以直接去官网下载对应的数据。

 1library("TCGAbiolinks") 2library("tidyverse") 3 4project = "TCGA-LIHC"  #以肝癌类型举例,下载转录组的表达数据 5experimental = "RNA-Seq" 6category = "Transcriptome Profiling" 7datatype = "Gene Expression Quantification" 8workflowtype = "HTSeq - FPKM" 910query = GDCquery(project = project,11                     legacy = FALSE,  # Legacy 代表的hg19的版本,这里我们选择hg38,填FALSE12                     experimental.strategy = experimental ,13                     data.category = category,14                     data.type = datatype,15                     workflow.type = workflowtype)16GDCdownload(query) #此命令会在当前目录下生成GDCdata文件夹,里面存放下载的数据17clinical "clinical")  #下载对应的临床数
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/132251
推荐阅读
相关标签
  

闽ICP备14008679号