生信下机数据基础知识(1)中讲解了下机数据的格式含义,让我们知道,我们分析的数据长什么样子,都是什么意思,可以知道这个数据来自哪个测序平台,那么,这一讲,会说一下数据分析的前期步骤:数据质控。 数据质控,就是对下机数据进行质量控制,看看这个数据是否合格,是否能够继续进行后续的一系列分析。而测序数据的质量好坏会直接影响我们的下游分析的准确性。 通过质控,我们可以知道我们的数据的测序错误率分布,是否有一定的偏向性和局限性,以及是否会显著受GC含量的影响等 |
质控几个概念
Q值越高,代表碱基被测错的概率越低,也就代表了我们下机数据质量更好;
所以,这里:
Q20就是指,下机数据中质量数值为20的碱基占全部碱基的百分比;
Q30就是指,下机数据中质量数值为30的碱基占全部碱基的百分比;
Q40就是指,下机数据中质量数值为40的碱基占全部碱基的百分比;
一般,Illumina官方保证大于80%碱基准确率达Q30,千年基因在合同中严格保证大于85%碱基准确度达Q30。如果我们自己做分析,Q30>85%的时候,说明数据质量合格。如果考虑Q20的话,Q20>=95%以上,最低不低于90%,也说明质量还可以。 |
GC含量就是指,全部测序碱基中,GC占全部碱基的占比,不同物种会有差别,不同测序项目,GC含量也会有差别。由于二代测序平台多少会存在一定的测序偏差,我们可以查看GC含量值来协助判断测序过程是否足够随机。例如,人类的基因组GC含量一般是在40%左右,因此,如果发现GC含量明显偏离这个数值,说明测序过程中存在较高的序列偏向性,结果就是基因组中某些特定区域被反复测序的几率高于平均水平,这样的数据会影响基因组覆盖度的偏离以及后续变异检测和CNV等分析。
Fxtools
#https://github.com/BGI-shenzhen/FxTools from BGI-shenzhen heweiming
复制
BamDeal
#https://github.com/BGI-shenzhen/BamDeal from BGI-shenzhen heweiming
复制
等。其中Trimmomatic,iTools,Fxtools,BamDeal可以对原始数据进行过滤处理,去掉低质量的数据。
文章转载自R和SVG的较量,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
2025年4月中国数据库流行度排行榜:OB高分复登顶,崖山稳驭撼十强
墨天轮编辑部
2294次阅读
2025-04-09 15:33:27
数据库国产化替代深化:DBA的机遇与挑战
代晓磊
1053次阅读
2025-04-27 16:53:22
2025年3月国产数据库中标情况一览:TDSQL大单622万、GaussDB大单581万……
通讯员
661次阅读
2025-04-10 15:35:48
数据库,没有关税却有壁垒
多明戈教你玩狼人杀
532次阅读
2025-04-11 09:38:42
国产数据库需要扩大场景覆盖面才能在竞争中更有优势
白鳝的洞穴
511次阅读
2025-04-14 09:40:20
最近我为什么不写评论国产数据库的文章了
白鳝的洞穴
469次阅读
2025-04-07 09:44:54
【活动】分享你的压箱底干货文档,三篇解锁进阶奖励!
墨天轮编辑部
425次阅读
2025-04-17 17:02:24
2025年4月国产数据库中标情况一览:4个千万元级项目,GaussDB与OceanBase大放异彩!
通讯员
410次阅读
2025-04-30 15:24:06
天津市政府数据库框采结果公布,7家数据库产品入选!
通讯员
400次阅读
2025-04-10 12:32:35
优炫数据库成功入围新疆维吾尔自治区行政事业单位数据库2025年框架协议采购!
优炫软件
348次阅读
2025-04-18 10:01:22