赞
踩
前面介绍了如何从sra文件得到fastq文件,并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基,如何进行序列比对。
[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件
[Linux|生信]project4_02:质控过滤
[Linux|生信]project4_03:序列比对
今天介绍如何将序列信息进行定量,用于后续数据挖掘。
gtf=$HOME/Project4/source_data/cleandata/refANDgtf/GRCh38_latest_genomic.gff
nohup featureCounts -T 5 -p -t exon -g ID -a $gtf -o all.id.txt *bam 1>counts.id.log 2>&1 &
参数说明:
-T 线程数 -p 双端序列 -t 设置feature-type,指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon” -g 当提供参考的gtf/gff的时候,我们需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计,默认为“gene_id”,注意!选择gtf/gff中提供的id identifier!!!我的GFF文件来自NCBI官网,该参数值改为“ID”(见GTF/GFF文件第9列) -a 参考gtf文件名,支持Gzipped文件格式 -o 输出文件的名字,输出文件的内容为read 的统计数目 *.bam 为对所有对比后的bam文件进行操作 1>counts.id.log 2>&1 所有输出均重定向保存至“counts.id.log”中
“counts.id.log”日志文件记录了输入文件的基本信息及比对情况,见下图。
“all.id.txt”文件记录了运行的命令行以及定量的Counts结果,见下图。 文件主要由9列构成,前6列分别为“Geneid Chr Start End Strand Length”,后三列为三个样本的Counts数
“all.id.txt.summary”文件为对总比对结果的汇总
本文由 mdnice 多平台发布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。