赞
踩
如何分析芯片数据
我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。 注:这篇文章不会介绍R语言的安装和使用,也不会介绍GEO数据库的构造
数据的获取
数据获取有两种方式,R包GEOquery解析和手动下载。其中前面一种最方便,完成了手动数据下载和Bioconductor常见数据结构ExpressionSet的构造,关于这个数据结构的具体介绍看Bioconductor的介绍或者视频,简言之,就是用于存放 实验信息, 分组信息 和 表达信息, 方便后续调用。
library(GEOquery)
gset
show(gset)
ExpressionSet
一般而言GEOquery解析都是首选,除非你提供的GSE号还没被GEOquery记录或者说网络速度感人,以及你不觉得别人提供的矩阵是你所需要的,你才会决定去手工下载。分为两种情况,一种是下载赛默飞的下机原始数据格式CEL,一种是下载单个样本表达量向量或者含有所有样本的表达量矩阵。
数据下载
先说第一种,可以直接点击http下载到tar打包的数据, 然后解压缩得到所有的CEL文件
setwd("F:/Project/GEO_project/")
library(affy)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。