赞
踩
关于sra数据下载方法可以参考之前的文章:RNA-seq——快速下载SRA数据
在Linux中下载方法如下:
# 下载所需数据
for ((i=77;i<=80;i++)) ;do prefetch -v SRR9576$i; done
# 找到自己的数据存放位置,解压文件
for((i=79;i<=80;i++));do fastq-dump --gzip --split-3 SRR9576$i.sra;done
# 跨用户,把文件放到指定位置
scp SRR9576*gz root@dzfly:/root/project/RNA/prc2/sra
因为aspera不能在root用户下载,而我的软件大都安装在root用户下,所以我新建了一个用户用来下载数据。下载完成之后再传输到root用户,有些繁琐,但是速度很快,占用的时间可以忽略不计。
关于fastq-dump的一些参数:
综上,就算是单端测序,使用–split-3也不会有影响,所以在不清楚是否为双端测序时,最好加上此选项。
还有一种工具是fasterq-dump,可以自定义转换时使用的线程,与fastq-dump用法相同,但速度比更快。
# 单个文件qc
fastqc SRR9576*gz
# 总体qc
multiqc .
官方结果解读:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/
中文版解读:https://www.jianshu.com/p/14fd4de54402
以SRR957677.fastq.gz的qc结果为例:
可以看到左侧的summary,除了per base sequence content之外基本都合格了。下面对异常进行说明。
此处异常,官方的解释为:Reasons for seeing warnings or errors on this plot could be transient problems such as bubbles going through the flowcell, or they could be more permanent problems such as smudges on the flowcell or debris inside the flowcell lane.
即测序时有可能出现了气泡或者通道有污染。
在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的。
来自:https://www.cnblogs.com/xiaojikuaipao/p/7187085.html
统计完全一样reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。测序深度越高,越容易产生一定程度的duplication,这是正常的现象。
当存在多个fastqc结果文件时,可以使用multiqc合并查看fastqc的结果,内容与fastqc差不多。不过页面更好看了哈哈。
参数说明以及批量处理参考:https://www.cnblogs.com/sqsgoodluck/p/15914395.html
# 注意输出文件位置和gz文件位置
trim_galore -q 25 --phred33 --stringency 3 -o ../clear1/ ../sra/SRR957677.fastq.gz
# 对处理后的数据再进行qc
fastqc SRR957677_trimmed.fq.gz
# 查看具体处理情况:
cat SRR957677.fastq.gz_trimming_report.txt
看一下处理后的数据qc结果
可以对比一下,发现per base sequence quality是有那么一点提高。但是总体来说没有什么特别大的提升。因为没有处理之前的数据就已经很好了,不太需要质量控制就可以使用。
注:关于Per base sequence content开头reads的碱基组成偏离,好像可以通过剪切头部解决,还没有处理过,挖个坑,学会来再来解决。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。