赞
踩
郑老师统计课程,欢迎点击报名:孟德尔随机化课程即将开班!!
有朋友在做孟德尔随机化的过程中,下载的数据只有chr和pos,没有分析时所用的rsID,就无从下手。
首先,我们得了解一下,chr:pos和rsID
chr:pos:Chromosome (Chr) and position (Pos) 染色体和编码位置,利用染色体编号和位置编号确定SNP;但参考基因版本不同,同一位点chr:pos会不同。
rsID 是 dbSNP(NCBI子数据库)的Reference SNP ID,是一串编码变异的数字,rsID优点是由dbSNP确定,不受参考基因版本限制,没有重复的ID,但最大的问题就是不是所有位点都有rsID,这也是在转化的过程中会有一些chr:pos找不到对应的rsID。
一般在做孟德尔随机化时,需要将chr:pos转化为rsID,方便后续进行分析
chr:pos→rsID转化
一、单个转化
直接在pubmed上查找(https://www.ncbi.nlm.nih.gov/)
打开NCBI官网页面,选择SNP,之后将我们需要转换的chr:pos或rsID输入,点击搜索
二、批量转化
一般进行孟德尔随机化分析,很少是单个转化的,因为SNP较多。
批量转化就需要一个R包“MungeSumstats”,将chr:pos转化为rsID
包的安装
批量转化需要安装的包是比较麻烦的,安装好包后,转化起来就特别方便。
因为“MungeSumstats”这个包不在R语言官网,在Bioconductor中,因此,安装包之前需要先安装Biocmanager
if (!require("BiocManager")) install.packages("BiocManager")
接着就可以安装MungeSumstats包
BiocManager::install("MungeSumstats")
注:安装这个包不麻烦,但加载时会出现缺少某些包,缺什么,安装什么就可以了。
缺少DelayedArray这个包,这时就用以下代码在Rstudio包一下就可以了BiocManager::install("DelayedArray")
安装的过程中,如果出现要更新某些包,如下图
填入n
不要进行更新,不然DelayedArray安装很容易出错(这都是安装过后的经验)
接着再安装参考基因组的数据包,这个包很大,也有多个版本,常用的是dbSNP144.GRCh37
- BiocManager::install("SNPlocs.Hsapiens.dbSNP144.GRCh37")
- BiocManager::install("BSgenome.Hsapiens.1000genomes.hs37d5")
注:安装这些包需要时间,这些包很大。
数据的转化
设置工作空间,读入数据
- set()#设置路径
- exp<-read.table("exp.txt",header = T,sep ="\t" ) #数据请回复下载
开始转化,保存
- format_sumstats(path=exp,ref_genome = "GRCh37",dbSNP=144,save_path = "exp.tsv.gz")
- #path指的是转化的数据,ref_genome,dbSNP是选的基因组版本,save_path是转化保存的路径
读取转化后的结果
exp.af<-read.table("exp.tsv.gz",header = T,sep ="\t" )
转化完成
小结
这个转化并不难,但在装包的过程中会有点费劲,本来是想要装 GRCh38基因组数据,没装成功,就放弃了。GRCh38和GRCh37转化的结果会略有不同,GRCh38是最新的,GRCh37是最为常用的。
包装好后,转化就很简单,我这里演示的是本地数据读取转化的版本,如果是线上的,直接用 IEU Open GWAS里的ID,只要用import_sumstats就可以了
data<-import_sumstats(ids = "ieu-a-298", ref_genome = "GRCH37",dbSNP=144)
需要演示数据,可在公众号回复“数据”即可下载。
一个专门做公共数据库的公众号,关注我们
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。