最近课题组小师妹想要学习一些测序分析的基础知识,本着复习加深的原则,我整理了一些想要开启生信分析之路的小白们的入门知识点,分享给大家。
一 下机数据解析
下机数据一般称为Fastq格式数据,以fastq或者fq作为文件名称的后缀,(如果有压缩的话,会以fq.gz或者fastq.gz作为后缀)是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。FASTQ格式文件中每个read由四行描述,如下:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT
+
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF
格式:
第一行以“@”开头,随后为Illumina测序标识符(sequence Identifiers)和描述文字;
第二行是碱基序列
第三行以“+”开头,随后为Illumina测序标识符(选择性部分)
第四行为对应序列每个碱基的测序质量。
Illunima测序标识符详细信息如下:
EAS139 | The unique instrument name |
136 | Run ID |
FC706VJ | Flowcell ID |
2 | Flowcell lane |
2104 | Tile number within the flowcell lane |
15343 | X-coordinate of the cluster within the tile |
197393 | Y-coordinate of the cluster within the tile |
1 | Member of a pair,1 or 2 (paired-end or mate-pair reads only) |
Y | Y if the read fails filter(read is bad),N otherwise |
18 | 0 when none of the control bits are on,otherwise it is an even number |
ATCACG | Index suquence |
PS:不同测序仪器的第一行的信息会有不同
第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII-33=Qphred=-10log10(e) 【针对Phred33质量体系的计算公式】
此公式可说明,质量值越大测序错误率(e)越低,准确性越高。
其他质量体系如下:
PS:上图中,中间的数字代表的是上述质量体系字符的ASCII 码的十进制码
如果你获取到的fq文件不知道具体质量体系,可以通过查看其中质量值这一行信息,查看最大质量值是属于上述几种质量体系中哪一种即可;
测序种类有PE(pair end read,一条序列测两端,所以会有两个read,分别在read1和read2里)、SE(single end read:一条序列仅测一段,只有一个fq文件)、MP(mate pair end read,建库方式跟PE的不同)。PE91,PE151后边所接数字的意思是测序中,一条reads的长度,也就是一条reads的碱基个数。
二 Fa文件格式
fa文件要简单的多,多以fa作为后缀,或者fasta作为后缀。
>ID
ATCGATTTTGCCC
格式:
第一行是这段序列的ID,如果是已知的genome,就会使chr1 chr2等这种各类型的,也会在其中标注这个文件的来源等信息;
第二行 这段序列的碱基序列信息;
想要一起讨论的小伙伴可以添加作者的微信
往期回顾:
R包,python包,perl包,无root权限脱网,如何安装?
无root权限无连网,解决pyhton 安装模块报错问题(2)