暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

生信下机数据基础知识(2)

R和SVG的较量 2020-06-28
1684

生信下机数据基础知识(1)中讲解了下机数据的格式含义,让我们知道,我们分析的数据长什么样子,都是什么意思,可以知道这个数据来自哪个测序平台,那么,这一讲,会说一下数据分析的前期步骤:数据质控。

数据质控,就是对下机数据进行质量控制,看看这个数据是否合格,是否能够继续进行后续的一系列分析。而测序数据的质量好坏会直接影响我们的下游分析的准确性。

通过质控,我们可以知道我们的数据的测序错误率分布,是否有一定的偏向性和局限性,以及是否会显著受GC含量的影响等


质控几个概念

初步接触生信分析的小伙伴们可以重点关注一下几个质控概念即可,也是主要用到的几个质控概念:Q20,Q30,Q40,GC%

上一章中罗列了一个公式:
ASCII-33=Qphred=-10log10(e) 【针对Phred33质量体系的计算公式】
其中e是指预计碱基检出不正确的概率,也及测序错误率。当e越大,说明测序越不准确,越小,说明测序越准确。当我们希望测序错误率低于1%,也就是准确率为99%,那么根据上述公式,可以计算出Qphred=-10log10(e)=-10log10(10-2)=20,也就是说当Qphred=20,则测序错误率为1%。依此依次内推:  
测序质量数值和碱基检出精确度的关系(公式:Qphred=-10log10(e)
质量数值(Qphred)
错误碱基检测率
推测正确碱基检出率
20(Q20)
1/100(1%)
99%
30(Q30)
1/1000(0.1%)
99.9%
40(Q40)
1/10000(0.01%)
99.99%

Q值越高,代表碱基被测错的概率越低,也就代表了我们下机数据质量更好;


所以,这里:

Q20就是指,下机数据中质量数值为20的碱基占全部碱基的百分比;

Q30就是指,下机数据中质量数值为30的碱基占全部碱基的百分比;

Q40就是指,下机数据中质量数值为40的碱基占全部碱基的百分比;

一般,Illumina官方保证大于80%碱基准确率达Q30,千年基因在合同中严格保证大于85%碱基准确度达Q30。如果我们自己做分析,Q30>85%的时候,说明数据质量合格。如果考虑Q20的话,Q20>=95%以上,最低不低于90%,也说明质量还可以。

GC含量就是指,全部测序碱基中,GC占全部碱基的占比,不同物种会有差别,不同测序项目,GC含量也会有差别。由于二代测序平台多少会存在一定的测序偏差,我们可以查看GC含量值来协助判断测序过程是否足够随机。例如,人类的基因组GC含量一般是在40%左右,因此,如果发现GC含量明显偏离这个数值,说明测序过程中存在较高的序列偏向性,结果就是基因组中某些特定区域被反复测序的几率高于平均水平,这样的数据会影响基因组覆盖度的偏离以及后续变异检测和CNV等分析。


质控常用软件
目前,我们常用的质控软件有:
fastQC,Trimmomatic,iTools,

Fxtools

#https://github.com/BGI-shenzhen/FxTools from BGI-shenzhen heweiming
复制

BamDeal

#https://github.com/BGI-shenzhen/BamDeal from BGI-shenzhen heweiming
复制

等。其中Trimmomatic,iTools,Fxtools,BamDeal可以对原始数据进行过滤处理,去掉低质量的数据。

目前我用的比较多的是这几个软件。


当然,除了这几个概念以外,还有一些更详细的质控概念:比如,整条read的每个位置的碱基分析(这里我们拿Illumina PE150举例,包括read的1-150位点,计算每个位置的ACGTN含量,以及0-41质量值的个数每个位置),根据接头序列分析reads是否含有接头序列(机器在测序的时候带进来的接头序列)等。这就需要更进一步学习了。

编辑:Vickymemo,梁小勇的专场
校对:Vickymemo


往期回顾:
生信下机数据基础知识(1)
R包,python包,perl包,无root权限脱网,如何安装?
无root权限无连网,解决pyhton 安装模块报错问题(2)
无root权限安装scipy,报错如何解决(1)
文章转载自R和SVG的较量,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论