当前位置:   article > 正文

GWAS全基因组关联分析实战——基于Plink转换vcf数据为二进制_vcf文件如何做gwas分析

vcf文件如何做gwas分析

vcf数据是保存变异信息的主要数据格式,plink是进行全基因组关联分析(GWAs)分析的常用工具包,同时提供一系列数据转换、裁剪和遗传统计量计算工具。本文以实际数据提供基因组关联分析方法。

1 数据准备

首先,使用plink将原始的SNP数据(snps_fil.recode.vcf )转换为二进制数据(bimbedfam):
格式转换:

mkdir GWAs_raw
nohup plink --vcf snps_fil.recode.vcf --threads 20 --const-fid --allow-extra-chr --make-bed -out GWAs_raw/snps_fil >> 20231111_vcf_to_bimbedfam.log&
  • 1
  • 2

将包含有亲本信息,详细介绍
更改FID:

plink --bfile GWAs_raw/snps_fil --update-ids POP.FID --allow-extra-chr --make-bed --out GWAs_raw/snps_fil1
  • 1

本研究包含三种表型信息,需要使用Plink插入原始数据:
添加表型(生态型)信息:

plink --bfile GWAs_raw/snps_fil1 --pheno POP.ecotypes --allow-extra-chr --make-bed --out GWAs_raw/snps_fil1_p
  • 1

初始SNP数据不包含SNP ID,本文以染色体编号:位置信息作为染色体编号
添加SNP ID:

plink -bfile GWAs_raw/snps_fil1_p --set-missing-var-ids @:# --allow-extra-chr --make-bed --out GWAs_raw/RT_snps
  • 1

2 关联分析

PLINK--assoc参数是进行关联分析的参数,--adjust将分析的原始P值进行修正,由于研究设计的材料为植物,不涉及性别信息,同时缺少染色体编号(主要是格式不对,现在改比较占用资源,最后更改更方便),因此需要添加--allow-extra-chr--allow-no-sex参数:

plink -bfile GWAs_raw/RT_snps --assoc --adjust --allow-extra-chr --allow-no-sex --out GWAs_raw/RT_snps
  • 1

将结果中的染色体编号替换为纯数字:

# to substitute chrm ID
bash script/chr_tran.sh GWAs_raw/RT_snps.qassoc.adjusted GWAs_raw/RT_snps1.qassoc.adjusted
  • 1
  • 2

添加变异位点位置信息:

# add BP info
nohup bash script/add_BP.sh GWAs_raw/RT_snps1.qassoc.adjusted GWAs_raw/RT_snps2.qassoc.adjusted &
  • 1
  • 2

script:
chr_tran.sh:

INPUT=$1
OUT=$2
sed "s/Chrom1/1/g" $INPUT |awk '{print$0}' \
        |sed "s/Chrom2/2/g" |awk '{print$0}' \
        |sed "s/Chrom3/3/g" |awk '{print$0}' \
        |sed "s/Chrom4/4/g" |awk '{print$0}' \
        |sed "s/Chrom5/5/g" |awk '{print$0}' \
        |sed "s/Chrom6/6/g" |
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/736522
推荐阅读
相关标签
  

闽ICP备14008679号