赞
踩
TCGA (The Cancer Genome Atlas)是由National Cancer Institute(NCI,美国国家癌症研究所)和National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。
目前共收录了33种癌症类型,超过了2个PB的数据。
官方网站: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
生存分析是研究影响因素与生存时间和结局关系的方法,常用于癌症患者预后分析,TCGA数据库中患者的临床信息非常适合来做生存分析,分析众多因素对生存期的影响。生存分析使用的方法:
Kaplan-Meier plots to visualize survival curves(根据生存时间分布,估计生存率以及中位生存时间,以生存曲线方式展示,从而分析生存特征,一般用Kaplan-Meier法,还有寿命法)
Log-rank test to compare the survival curves of two or more groups(通过比较两组或者多组之间的的生存曲线,用log rank检验,判断单因素是否对生存期的有显著影响)
Cox proportional hazards regression to describe the effect of variables on survival(用Cox风险比例模型来分析变量对生存的影响,既可以分析单个因素也能分析多因素对生存时间的影响)
基本术语
Event(事件):包括起始事件和终止时间,起始事件反应研究对象开始生存过程的起始特征事件。如患者开始接受治疗。终止事件指出现研究者所关心的特定结局,如患者死亡等。
Survival time(生存时间):一般指某个事件的开始到终止这段事件。
Censoring(删失):一般指不是由死亡引起的的数据丢失,可能是失访,可能是非正常原因退出,可能是时间终止而事件未发生等等,一般在展示时以‘+’号显示。
1library("TCGAbiolinks") 2library("tidyverse") 3 4project = "TCGA-LIHC" #以肝癌类型举例,下载转录组的表达数据 5experimental = "RNA-Seq" 6category = "Transcriptome Profiling" 7datatype = "Gene Expression Quantification" 8workflowtype = "HTSeq - FPKM" 910query = GDCquery(project = project,11 legacy = FALSE, # Legacy 代表的hg19的版本,这里我们选择hg38,填FALSE12 experimental.strategy = experimental ,13 data.category = category,14 data.type = datatype,15 workflow.type = workflowtype)16GDCdownload(query) #此命令会在当前目录下生成GDCdata文件夹,里面存放下载的数据17clinical "clinical") #下载对应的临床数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。