基因组|测序数据质控篇

前言：

一般测序下机数据会存在含N比例过大、测序质量较低的碱基数占比过高、含有duplication、序列污染等低质量reads,这些不合格的reads会影响后续的分析，所以，我们拿到测序数据首先要了解测序数据的质量情况，具体内容包括含N比例、GC含量、duplication情况、序列长度分布情况、碱基平衡情况等。

今天，我们将一起通过数据格式和质量体系、数据质控步骤、Fastqc结果解读及异常处理三大模块进行学习。

第一部分数据格式和质量体系

即，Q10准确率为90%，Q20准确率为99%，Q30准确率为99.9%，Q40准确率为99.99%，Q50准确率为99.999%。

第二部分数据质控

数据质控现在用得最多的是fastqc,我们今天就以它为工具学习如何了解测序数据质量。

Fastqc下载安装

unzip fastqc_v0.11.5.zip

cd FastQC

chmod +x fastqc

Fastqc评估测序数据质量

Usage:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file][-t]

--(no)extract输出的结果不接压，若无此选项，输出的结果为.zip压缩文件。

-f fastq|bam|sam指定输入文件格式，若无此项，则会自动检测。

-c contaminant file指定一个contaminant文件，文件格式为”Name\tSequence”，fastqc会把overrepreseted sequence往这个contaminant文件搜索。

-t线程数

例子：

fastqc *fq.gz –t 4 #目录下所有fq.gz文件进行质控，线程数一般与文件数一致。

第三部分 fastqc结果解读及异常处理

Figure1 Quality Scores per base sequence quality

横轴代表碱基在序列中的位置，纵轴代表Q值，由前面碱基质量值与错误率的关系可知，若某个位置对应的Q值为30，则该处碱基测序准确率为99.9%。

如Figure1所示，在箱线图中，红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25，报"WARN"；若任一位置的下四分位数低于5或中位数低于20，报"FAIL"。

观察Sequence Contentacross图和GC Contentacross all base图的GC含量的线是否平行于X轴，若不平行，则该位置往往有overrepresentedsequence的污染，可能原因建库过程的误差、测序的系统误差或者文库本身特点。

由N Content across all bases图可知reads中含N碱基的情况，理想状况下是含N量越少越好，在微生物多样性分析中一般是去除含N碱基比例>5%的序列。

Figure2 Sequences Duplication level stastics图

最后，在进行去低质量reads和接头等预处理步骤后，再次进行fastqc质控，然后用Multic QC即可把多个样品的质控结果汇总在一起，在报告中图片是交互式的，鼠标停留可显示样品名。如下图所示。

Figure3 多样品质控前后比较