生信下机数据基础知识(2)

R和SVG的较量 2020-06-28

1704

生信下机数据基础知识(1)中讲解了下机数据的格式含义，让我们知道，我们分析的数据长什么样子，都是什么意思，可以知道这个数据来自哪个测序平台，那么，这一讲，会说一下数据分析的前期步骤：数据质控。

数据质控，就是对下机数据进行质量控制，看看这个数据是否合格，是否能够继续进行后续的一系列分析。而测序数据的质量好坏会直接影响我们的下游分析的准确性。

通过质控，我们可以知道我们的数据的测序错误率分布，是否有一定的偏向性和局限性，以及是否会显著受GC含量的影响等

质控几个概念

初步接触生信分析的小伙伴们可以重点关注一下几个质控概念即可，也是主要用到的几个质控概念：Q20，Q30，Q40，GC%。

上一章中罗列了一个公式：

ASCII-33=Qphred=-10log10（e）【针对Phred33质量体系的计算公式】

其中e是指预计碱基检出不正确的概率，也及测序错误率。当e越大，说明测序越不准确，越小，说明测序越准确。当我们希望测序错误率低于1%，也就是准确率为99%，那么根据上述公式，可以计算出Qphred=-10log10(e)=-10log10(10-2）=20，也就是说当Qphred=20，则测序错误率为1%。依此依次内推：

测序质量数值和碱基检出精确度的关系（公式：Qphred=-10log10（e））
质量数值（Qphred）	错误碱基检测率	推测正确碱基检出率
20(Q20)	1/100(1%)	99%
30(Q30)	1/1000(0.1%)	99.9%
40(Q40)	1/10000(0.01%)	99.99%

Q值越高，代表碱基被测错的概率越低，也就代表了我们下机数据质量更好；

所以，这里：

Q20就是指，下机数据中质量数值为20的碱基占全部碱基的百分比；

Q30就是指，下机数据中质量数值为30的碱基占全部碱基的百分比；

Q40就是指，下机数据中质量数值为40的碱基占全部碱基的百分比；

一般，Illumina官方保证大于80%碱基准确率达Q30，千年基因在合同中严格保证大于85%碱基准确度达Q30。如果我们自己做分析，Q30>85%的时候，说明数据质量合格。如果考虑Q20的话，Q20>=95%以上，最低不低于90%，也说明质量还可以。

GC含量就是指，全部测序碱基中，GC占全部碱基的占比，不同物种会有差别，不同测序项目，GC含量也会有差别。由于二代测序平台多少会存在一定的测序偏差，我们可以查看GC含量值来协助判断测序过程是否足够随机。例如，人类的基因组GC含量一般是在40%左右，因此，如果发现GC含量明显偏离这个数值，说明测序过程中存在较高的序列偏向性，结果就是基因组中某些特定区域被反复测序的几率高于平均水平，这样的数据会影响基因组覆盖度的偏离以及后续变异检测和CNV等分析。

质控常用软件

目前，我们常用的质控软件有：

fastQC，Trimmomatic，iTools，

Fxtools

#https://github.com/BGI-shenzhen/FxTools from BGI-shenzhen heweiming
复制

BamDeal

#https://github.com/BGI-shenzhen/BamDeal from BGI-shenzhen heweiming
复制

等。其中Trimmomatic，iTools，Fxtools，BamDeal可以对原始数据进行过滤处理，去掉低质量的数据。

目前我用的比较多的是这几个软件。

当然，除了这几个概念以外，还有一些更详细的质控概念：比如，整条read的每个位置的碱基分析（这里我们拿Illumina PE150举例，包括read的1-150位点，计算每个位置的ACGTN含量，以及0-41质量值的个数每个位置），根据接头序列分析reads是否含有接头序列（机器在测序的时候带进来的接头序列）等。这就需要更进一步学习了。

编辑：Vickymemo，梁小勇的专场

校对：Vickymemo

往期回顾：

生信下机数据基础知识(1)

R包，python包，perl包，无root权限脱网，如何安装？

无root权限无连网，解决pyhton 安装模块报错问题（2）

无root权限安装scipy，报错如何解决（1）

数据库

文章转载自R和SVG的较量，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

生信下机数据基础知识(2)

评论

相关阅读