当前位置:   article > 正文

孟德尔随机化丨chr:pos 向 rsID转化

chr:pos怎么转rsid

郑老师统计课程,欢迎点击报名:孟德尔随机化课程即将开班!!

有朋友在做孟德尔随机化的过程中,下载的数据只有chr和pos,没有分析时所用的rsID,就无从下手。

a3c9998373e185ded4b202dbaeb8005d.png

首先,我们得了解一下,chr:pos和rsID

chr:pos:Chromosome (Chr) and position (Pos) 染色体和编码位置,利用染色体编号和位置编号确定SNP;但参考基因版本不同,同一位点chr:pos会不同。

rsID 是 dbSNP(NCBI子数据库)的Reference SNP ID,是一串编码变异的数字,rsID优点是由dbSNP确定,不受参考基因版本限制,没有重复的ID,但最大的问题就是不是所有位点都有rsID,这也是在转化的过程中会有一些chr:pos找不到对应的rsID。

一般在做孟德尔随机化时,需要将chr:pos转化为rsID,方便后续进行分析

chr:pos→rsID转化

一、单个转化

直接在pubmed上查找(https://www.ncbi.nlm.nih.gov/)

打开NCBI官网页面,选择SNP,之后将我们需要转换的chr:pos或rsID输入,点击搜索

d83643f082686f497fc99452f3cea2c7.png

二、批量转化

一般进行孟德尔随机化分析,很少是单个转化的,因为SNP较多。

批量转化就需要一个R包“MungeSumstats”,将chr:pos转化为rsID

  • 包的安装

批量转化需要安装的包是比较麻烦的,安装好包后,转化起来就特别方便。

因为“MungeSumstats”这个包不在R语言官网,在Bioconductor中,因此,安装包之前需要先安装Biocmanager

if (!require("BiocManager")) install.packages("BiocManager")

接着就可以安装MungeSumstats包

BiocManager::install("MungeSumstats")

注:安装这个包不麻烦,但加载时会出现缺少某些包,缺什么,安装什么就可以了。

945c0313976923474170b04e8dfb5333.png

缺少DelayedArray这个包,这时就用以下代码在Rstudio包一下就可以了BiocManager::install("DelayedArray")

安装的过程中,如果出现要更新某些包,如下图

f4f81117c01bb4436ae2e36859317656.png

填入n

不要进行更新,不然DelayedArray安装很容易出错(这都是安装过后的经验)

接着再安装参考基因组的数据包,这个包很大,也有多个版本,常用的是dbSNP144.GRCh37

  1. BiocManager::install("SNPlocs.Hsapiens.dbSNP144.GRCh37")
  2. BiocManager::install("BSgenome.Hsapiens.1000genomes.hs37d5")

注:安装这些包需要时间,这些包很大。

  • 数据的转化

设置工作空间,读入数据

  1. set()#设置路径
  2. exp<-read.table("exp.txt",header = T,sep ="\t" ) #数据请回复下载

33c5f7388bbe4ca348eb4a1bff5291c3.png

开始转化,保存

  1. format_sumstats(path=exp,ref_genome = "GRCh37",dbSNP=144,save_path = "exp.tsv.gz")
  2. #path指的是转化的数据,ref_genome,dbSNP是选的基因组版本,save_path是转化保存的路径

读取转化后的结果

exp.af<-read.table("exp.tsv.gz",header = T,sep ="\t" )

cb9b0f52ca3ae6561617b6b3cececea7.png

转化完成

小结

这个转化并不难,但在装包的过程中会有点费劲,本来是想要装 GRCh38基因组数据,没装成功,就放弃了。GRCh38和GRCh37转化的结果会略有不同,GRCh38是最新的,GRCh37是最为常用的。

包装好后,转化就很简单,我这里演示的是本地数据读取转化的版本,如果是线上的,直接用 IEU Open GWAS里的ID,只要用import_sumstats就可以了

data<-import_sumstats(ids = "ieu-a-298", ref_genome = "GRCH37",dbSNP=144)

需要演示数据,可在公众号回复“数据”即可下载。

一个专门做公共数据库的公众号,关注我们

015de8b907f22ee3c9a3cacb542213b3.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/574033
推荐阅读
相关标签
  

闽ICP备14008679号