当前位置:   article > 正文

读取DNA甲基化IDAT文件

idat文件

今天我想要给ChAMP写一个import程序,因为目前大部分DNA Methylation领域的研究软件都是给予minfi程序提供的读取IDAT文件的程序,但是最近minfi似乎崩溃了,整个研究领域都快挂了……所以最好还是有自己的一条“供应链”

Manifest文件过滤

首先,甲基化分析需要对应的注释文件,主流是EPIC和450K的,我先分析450K的Manifest,首先原有的Manifest包含了从BeadChip到最终的文件的对应号,但是有一部分信息应该要提前过滤掉:一部分是开头的Header,另一部分是结尾的Control Probe

从illumina官网下载到对应的450K注释文件,打开是这样子的……(切记不要随便点开,你的电脑可能会挂掉)

这里写图片描述

如果把Header,Control Probe和SNP全部删掉,450K数据的行数正好就是:485512。这就是450K甲基化注释的所有Probe数量,每一个Probe对应一个CpG位点。不是说人体的全基因组上只有这写位点,而是说illumina公司决定只将这些位点涉及到芯片中完成测序。

值得注意的是,最后的Control Probe还是挺重要的,主要是用来评估测序质量,只是我目前没有太多的涉及那些领域,有时间我还是应该认真了解一下。

上图中有几列是很重要的:
AddressA_ID与AddressB_ID是对应的CpG ID和芯片数据位点。
后边的颜色是针对Type-I Probe的,监狱Type-I Probe是通过两种颜色测量出来的数据。
Infinium_Design_Type是用来指示Type-I和Type-II Probe的东西。
基本上就是需要上述的三列信息,将芯片的颜色数据,转换为可以分析的beta或者M数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/528113
推荐阅读
相关标签
  

闽ICP备14008679号