生信下机数据基础知识(1)

R和SVG的较量 2020-06-24

2128

最近课题组小师妹想要学习一些测序分析的基础知识，本着复习加深的原则，我整理了一些想要开启生信分析之路的小白们的入门知识点，分享给大家。

一下机数据解析

下机数据一般称为Fastq格式数据，以fastq或者fq作为文件名称的后缀，（如果有压缩的话，会以fq.gz或者fastq.gz作为后缀）是测序数据下机格式，其中包含测序序列（reads）的序列信息及其对应的测序质量信息。FASTQ格式文件中每个read由四行描述，如下：

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT

@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

格式：

第一行以“@”开头，随后为Illumina测序标识符（sequence Identifiers）和描述文字；

第二行是碱基序列

第三行以“+”开头，随后为Illumina测序标识符（选择性部分）

第四行为对应序列每个碱基的测序质量。

Illunima测序标识符详细信息如下：

EAS139	The unique instrument name
136	Run ID
FC706VJ	Flowcell ID
2	Flowcell lane
2104	Tile number within the flowcell lane
15343	X-coordinate of the cluster within the tile
197393	Y-coordinate of the cluster within the tile
1	Member of a pair，1 or 2 （paired-end or mate-pair reads only）
Y	Y if the read fails filter（read is bad），N otherwise
18	0 when none of the control bits are on，otherwise it is an even number
ATCACG	Index suquence

PS：不同测序仪器的第一行的信息会有不同

第四行中每个字符对应的ASCII值减去33，即为对应第二行碱基的测序质量值。如果测序错误率用e表示，Illumina测序平台的碱基质量值用Qphred表示，则有下列关系：

ASCII-33=Qphred=-10log10（e）【针对Phred33质量体系的计算公式】

此公式可说明，质量值越大测序错误率（e）越低，准确性越高。

其他质量体系如下：

PS:上图中，中间的数字代表的是上述质量体系字符的ASCII 码的十进制码

如果你获取到的fq文件不知道具体质量体系，可以通过查看其中质量值这一行信息，查看最大质量值是属于上述几种质量体系中哪一种即可；

测序种类有PE（pair end read，一条序列测两端，所以会有两个read，分别在read1和read2里）、SE（single end read：一条序列仅测一段，只有一个fq文件）、MP（mate pair end read，建库方式跟PE的不同）。PE91，PE151后边所接数字的意思是测序中，一条reads的长度，也就是一条reads的碱基个数。

二 Fa文件格式

fa文件要简单的多，多以fa作为后缀，或者fasta作为后缀。

>ID

ATCGATTTTGCCC

格式：

第一行是这段序列的ID，如果是已知的genome，就会使chr1 chr2等这种各类型的，也会在其中标注这个文件的来源等信息；

第二行这段序列的碱基序列信息；

感兴趣一起学习的小伙伴可以添加公众号二维码