生信下机数据基础知识(1)中讲解了下机数据的格式含义,让我们知道,我们分析的数据长什么样子,都是什么意思,可以知道这个数据来自哪个测序平台,那么,这一讲,会说一下数据分析的前期步骤:数据质控。 数据质控,就是对下机数据进行质量控制,看看这个数据是否合格,是否能够继续进行后续的一系列分析。而测序数据的质量好坏会直接影响我们的下游分析的准确性。 通过质控,我们可以知道我们的数据的测序错误率分布,是否有一定的偏向性和局限性,以及是否会显著受GC含量的影响等 |
质控几个概念
Q值越高,代表碱基被测错的概率越低,也就代表了我们下机数据质量更好;
所以,这里:
Q20就是指,下机数据中质量数值为20的碱基占全部碱基的百分比;
Q30就是指,下机数据中质量数值为30的碱基占全部碱基的百分比;
Q40就是指,下机数据中质量数值为40的碱基占全部碱基的百分比;
一般,Illumina官方保证大于80%碱基准确率达Q30,千年基因在合同中严格保证大于85%碱基准确度达Q30。如果我们自己做分析,Q30>85%的时候,说明数据质量合格。如果考虑Q20的话,Q20>=95%以上,最低不低于90%,也说明质量还可以。 |
GC含量就是指,全部测序碱基中,GC占全部碱基的占比,不同物种会有差别,不同测序项目,GC含量也会有差别。由于二代测序平台多少会存在一定的测序偏差,我们可以查看GC含量值来协助判断测序过程是否足够随机。例如,人类的基因组GC含量一般是在40%左右,因此,如果发现GC含量明显偏离这个数值,说明测序过程中存在较高的序列偏向性,结果就是基因组中某些特定区域被反复测序的几率高于平均水平,这样的数据会影响基因组覆盖度的偏离以及后续变异检测和CNV等分析。
Fxtools
#https://github.com/BGI-shenzhen/FxTools from BGI-shenzhen heweiming
复制
BamDeal
#https://github.com/BGI-shenzhen/BamDeal from BGI-shenzhen heweiming
复制
等。其中Trimmomatic,iTools,Fxtools,BamDeal可以对原始数据进行过滤处理,去掉低质量的数据。
文章转载自R和SVG的较量,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
【专家观点】罗敏:从理论到真实SQL,感受DeepSeek如何做性能优化
墨天轮编辑部
1257次阅读
2025-03-06 16:45:38
【专家有话说第五期】在不同年龄段,DBA应该怎样规划自己的职业发展?
墨天轮编辑部
1250次阅读
2025-03-13 11:40:53
2025年2月国产数据库大事记
墨天轮编辑部
976次阅读
2025-03-05 12:27:34
2025年2月国产数据库中标情况一览:GoldenDB 3500+万!达梦近千万!
通讯员
862次阅读
2025-03-06 11:40:20
2月“墨力原创作者计划”获奖名单公布
墨天轮编辑部
447次阅读
2025-03-13 14:38:19
AI的优化能力,取决于你问问题的能力!
潇湘秦
416次阅读
2025-03-11 11:18:22
优炫数据库成功应用于国家电投集团青海海南州新能源电厂!
优炫软件
337次阅读
2025-03-21 10:34:08
达梦数据与法本信息签署战略合作协议
达梦数据
286次阅读
2025-03-06 09:26:57
国产化+性能王炸!这套国产方案让 3.5T 数据 5 小时“无感搬家”
YMatrix
271次阅读
2025-03-13 09:51:26
磐维数据库对外门户全新升级!
磐维数据库
237次阅读
2025-03-04 15:32:59