暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

生信下机数据基础知识(1)

R和SVG的较量 2020-06-24
2069

最近课题组小师妹想要学习一些测序分析的基础知识,本着复习加深的原则,我整理了一些想要开启生信分析之路的小白们的入门知识点,分享给大家。


下机数据解析

下机数据一般称为Fastq格式数据,以fastq或者fq作为文件名称的后缀,(如果有压缩的话,会以fq.gz或者fastq.gz作为后缀)是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。FASTQ格式文件中每个read由四行描述,如下:


@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG 

GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT 

@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

格式:

第一行以“@”开头,随后为Illumina测序标识符(sequence Identifiers)和描述文字;

第二行是碱基序列

第三行以“+”开头,随后为Illumina测序标识符(选择性部分)

第四行为对应序列每个碱基的测序质量。

Illunima测序标识符详细信息如下:

EAS139

The unique instrument name

136

Run ID

FC706VJ

Flowcell ID

2

Flowcell lane

2104

Tile number within the flowcell lane

15343

X-coordinate of the cluster within the tile

197393

Y-coordinate of the cluster within the tile

1

Member of a pair1 or 2 paired-end or mate-pair reads only

Y

Y if the read fails filterread is bad),N otherwise

18

0 when none of the control bits are onotherwise it is an even number

ATCACG

Index suquence

PS:不同测序仪器的第一行的信息会有不同


第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:

ASCII-33=Qphred=-10log10(e) 【针对Phred33质量体系的计算公式】

此公式可说明,质量值越大测序错误率(e)越低,准确性越高。

 

其他质量体系如下:

PS:上图中,中间的数字代表的是上述质量体系字符的ASCII 码的十进制码


如果你获取到的fq文件不知道具体质量体系,可以通过查看其中质量值这一行信息,查看最大质量值是属于上述几种质量体系中哪一种即可;

测序种类有PE(pair end read,一条序列测两端,所以会有两个read,分别在read1和read2里)、SE(single end read:一条序列仅测一段,只有一个fq文件)、MP(mate pair end read,建库方式跟PE的不同)。PE91,PE151后边所接数字的意思是测序中,一条reads的长度,也就是一条reads的碱基个数。


二 Fa文件格式

fa文件要简单的多,多以fa作为后缀,或者fasta作为后缀。

>ID

ATCGATTTTGCCC

格式

第一行是这段序列的ID,如果是已知的genome,就会使chr1 chr2等这种各类型的,也会在其中标注这个文件的来源等信息;

第二行 这段序列的碱基序列信息;



感兴趣一起学习的小伙伴可以添加公众号二维码

 想要一起讨论的小伙伴可以添加作者的微信


往期回顾:

R包,python包,perl包,无root权限脱网,如何安装?

无root权限无连网,解决pyhton 安装模块报错问题(2)

无root权限安装scipy,报错如何解决(1)


文章转载自R和SVG的较量,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论