当前位置:   article > 正文

TCGA 数据库基因表达数据的下载:最大的公开肿瘤数据库,可用于各种深度学习项目_tcga肿瘤数据下周

tcga肿瘤数据下周
TCGA癌种项目:
项目名称癌种样本数量
TCGA-BRCA乳腺癌(Breast Invasive Carcinoma)1079
TCGA-OV卵巢浆液性囊腺癌(Ovarian Serous Cystadenocarcinoma)571
TCGA-LUAD肺腺癌(Lung Adenocarcinoma)563
TCGA-UCEC子宫内膜癌(Uterine Corpus Endometrial Carcinoma)542
TCGA-HNSC头颈部鳞状细胞癌(Head and Neck Squamous Cell Carcinoma)523
TCGA-KIRC肾细胞癌(Kidney Renal Clear Cell Carcinoma)523
TCGA-GBM胶质母细胞瘤(Glioblastoma Multiforme)522
TCGA-LGG低级别胶质瘤(Brain Lower Grade Glioma)509
TCGA-LUSC肺鳞状细胞癌(Lung Squamous Cell Carcinoma)501
TCGA-THCA甲状腺癌(Thyroid Carcinoma)473
TCGA-PRAD前列腺癌(Prostate Adenocarcinoma)469
TCGA-SKCM黑色素瘤(Skin Cutaneous Melanoma)469
TCGA-COAD结肠癌(Colon Adenocarcinoma)458
TCGA-STAD胃癌(Stomach Adenocarcinoma)437
TCGA-BLCA膀胱癌(Bladder Urothelial Carcinoma)408
TCGA-LIHC肝细胞癌(Liver Hepatocellular Carcinoma)375
TCGA-CESC宫颈癌(Cervical Squamous Cell Carcinoma and Endocervical Adenocarcinoma)305
TCGA-KIRP肾乳头状细胞癌(Kidney Renal Papillary Cell Carcinoma)289
TCGA-TGCT睾丸生殖细胞肿瘤(Testicular Germ Cell Tumors)261
TCGA-SARC软组织肉瘤(Sarcoma)255
TCGA-ESCA食管癌(Esophageal Carcinoma)183
TCGA-PAAD胰腺癌(Pancreatic Adenocarcinoma)173
TCGA-READ直肠癌(Rectum Adenocarcinoma)170
TCGA-PCPG嗜铬细胞瘤/副神经节瘤(Pheochromocytoma and Paraganglioma)169
TCGA-LAML急性髓细胞性白血病(Acute Myeloid Leukemia)135
TCGA-THYM胸腺瘤(Thymoma)97
TCGA-ACC肾上腺皮质癌(Adrenocortical Carcinoma)92
TCGA-MESO恶性间皮瘤(Mesothelioma)85
TCGA-UVM葡萄膜黑色素瘤(Uveal Melanoma)80
TCGA-KICH肾嫌色细胞癌(Kidney Chromophobe)66
TCGA-UCS子宫梗死性肉瘤(Uterine Carcinosarcoma)57
TCGA-CHOL胆管癌(Cholangiocarcinoma)50
TCGA-DLBC弥漫性大B细胞淋巴瘤(Lymphoid Neoplasm Diffuse Large B-cell Lymphoma)47
指定好项目名称下载即可(STAR-count转录组定量结果,其它数据类型需要自己指定):
  1. library(TCGAbiolinks)
  2. library(dplyr)
  3. library(SummarizedExperiment)
  4. library(msigdbr)
  5. # 选择项目
  6. class <"TCGA-READ"
  7. # 数据下载
  8. query <- GDCquery(
  9.   project = class,
  10.   data.category = "Transcriptome Profiling",
  11.   data.type = "Gene Expression Quantification"
  12.   workflow.type = "STAR - Counts"
  13. )
  14. GDCdownload(query = query)
  15. data <- GDCprepare(query = query)
  16. if (!dir.exists(paste0("./"class))) {
  17.   dir.create(paste0("./"class))
  18. }
  19. Exp <- assay(data) %>as.data.frame() # 提取数据表达
  20. ann <- rowRanges(data) # 提取基因注释
  21. ann <as.data.frame(ann)
  22. rownames(ann) <- ann$gene_id
  23. ann <- ann[rownames(Exp),]
  24. write.csv(ann, paste0("./"class,"/ann.csv"), row.names = F) # 基因注释信息
  25. Exp <- cbind(data.frame(Gene = ann$gene_name), Exp)
  26. write.csv(Exp, paste0("./"class,"/exp.csv"), row.names = F) # 表达矩阵
  27. clinical <- GDCquery_clinic(project= classtype = "clinical") # 提取临床信息
  28. write.csv(clinical, paste0("./"class,"/clinical.csv"), row.names = F) # 临床注释信息
结果如下:

图片

▲ count 表达矩阵

图片

▲ 样本临床、生存信息

图片

▲ 基因注释

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/915015
推荐阅读
相关标签
  

闽ICP备14008679号