赞
踩
1.为什么要进行MAF质控?
如果MAF(次等位基因频率)的值低于某个值例如0.02的话,那么意味着大部分位点都是相同的基因型,则贡献的信息非常少,增加假阳性。但是,需要注意的是可能有些稀有变异会被过滤掉。
2.提取ID
注意:awk的逻辑运算符的表示方法
运算符 | 代表意义 |
> | 大于 |
< | 小于 |
>= | 大于等于 |
<= | 小于等于 |
== | 等于 |
!= | 不等于 |
- awk '{ if($1 >=1 && $1 <= 22) print $2}' indmiss.bim > snp_1_22.txt
- wc -l snp_1_22.txt
根据参数 --extract 从染色体上提取snp1-22.txt对于的ID信息
通过参数 --freq ,计算每个SNP的MAF频率,通过直方图查看整体分布
- /d/软件集合/plink/plink --bfile get_snp --freq --out maf_check
- head maf_check.frq
- CHR SNP A1 A2 MAF NCHROBS
- 1 rs2185539 T C 0 224
- 1 rs11240767 T C 0 224
- 1 rs3131972 A G 0.1652 224
- 1 rs3131969 A G 0.1339 224
- 1 rs1048488 C T 0.1667 222
- 1 rs12562034 A G 0.1027 224
3.利用R语言可视化
可以看出,很多基因频率为0,说明没有分型,这些位点需要删掉。
去掉MAF小于0.05的位点,利用参数 --maf 0.05进行maf过滤。
前后统计结果发现,通过MAF质控共过滤了 325318 个 SNP 位点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。