当前位置:   article > 正文

MAF质控_为什么maf < 0.01或maf < 0.05

为什么maf < 0.01或maf < 0.05

1.为什么要进行MAF质控?

如果MAF(次等位基因频率)的值低于某个值例如0.02的话,那么意味着大部分位点都是相同的基因型,则贡献的信息非常少,增加假阳性。但是,需要注意的是可能有些稀有变异会被过滤掉。

2.提取ID

注意:awk的逻辑运算符的表示方法

运算符代表意义
大于
小于
>=大于等于
<=小于等于
==等于
!=不等于

 

  1. awk '{ if($1 >=1 && $1 <= 22) print $2}' indmiss.bim > snp_1_22.txt
  2. wc -l snp_1_22.txt

 根据参数 --extract 从染色体上提取snp1-22.txt对于的ID信息

 通过参数 --freq ,计算每个SNP的MAF频率,通过直方图查看整体分布

  1. /d/软件集合/plink/plink --bfile get_snp --freq --out maf_check
  2. head maf_check.frq
  3. CHR SNP A1 A2 MAF NCHROBS
  4. 1 rs2185539 T C 0 224
  5. 1 rs11240767 T C 0 224
  6. 1 rs3131972 A G 0.1652 224
  7. 1 rs3131969 A G 0.1339 224
  8. 1 rs1048488 C T 0.1667 222
  9. 1 rs12562034 A G 0.1027 224

3.利用R语言可视化

查看数据类型

 

 可以看出,很多基因频率为0,说明没有分型,这些位点需要删掉。
去掉MAF小于0.05的位点,利用参数 --maf 0.05进行maf过滤。

 

前后统计结果发现,通过MAF质控共过滤了 325318 个 SNP 位点。 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/477476
推荐阅读
相关标签
  

闽ICP备14008679号