从事生物信息学分析的学生和工作人员都会接触到二代测序数据,我们从测序公司拿到所需要的数据之后,首先最关心的问题就是测序数据的质量好不好,本文介绍一下如何对二代测序数据进行质量分析(QC)
二代测序数据分析:[1]quality control――工具/原料linux系统:ubuntu 或者 服务
fastqc
二代测序数据分析:[1]quality control――方法/步骤二代测序数据分析:[1]quality control 1、
安装fastqc
注意将fastqc加入到系统环境变量中,以便于在终端或命令行中直接运行
具体安装方法参考fastqc官方手册
二代测序数据分析:[1]quality control 2、
在命令行中直接运行命令
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]
output dir指的是输出结果路径
extract参数指的是输出结果是否解压
-f 参数 是输入文件的格式,指的是测序数据
二代测序数据分析:[1]quality control 3、
运行fastqc:
fastqc seqfile1.fq seqfile2.fq
二代测序数据分析:[1]quality control 4、
输出结果:在output dir目录下的一个压缩文件(未压缩)
通常我们只需关注如下几个结果
1 每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好
二代测序数据分析:[1]quality control 5、
2.每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好
二代测序数据分析:[1]quality control 6、
3. ATCG碱基在各个位置上的分布 一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉
二代测序数据分析:[1]quality control_二代测序