FASTQ 简介

FASTQ 格式是保存生物序列信息(通常是核苷酸序列)和相应测序质量的纯文本 ASCII 字符集序列,也就是所有的序列和质量都是用单个 ASCII 字符表示的。 开始是 Wellcome Trust Sanger Institute 用来把 FASTA 序列和其质量绑定到一起约定的各处,进来实际上成为了高通量测序仪器输出数据的标准存储格式。[1]

FASTQ文件每四行一个单元,存储一个测序数据和质量。第一行是数据的唯一识别符号,也就是每条序列的这一行都是唯一的,第二行是测得的序列,第三行是序列的描述信息,可以没有,也可以和第一行一样,第四行是编码的每个 base 的测序质量,和序列长度一致。

四行分别为,

  • @开始,紧跟序列的唯一识别符
  • 测序原始序列 [ATCG]+
  • +开头,可以紧跟序列的唯一识别符,或者为空,或者其他信息
  • 编码的序列质量

例如,

@HISEQ2500:557:C5BR7ACXX:4:1101:1872:2066 1:N:0:AGT
GNGGGACGACGATAGATCGGAAGAGCACACGTCTGAACTCCAGTCACATGT
+
@#4ADDDDFHH@FEHFFHIIIABGID?FBFGDHIG@@GH@FDF@@EHHGHG
@HISEQ2500:557:C5BR7ACXX:4:1101:15474:2140 1:N:0:AG
TTCATGGACGTTGATAAGATCTAGATCGGAAGAGCACACGTCTGAACTCCA
+
CCCFFFFFHHHHHIEIJJJJJIFHIIIJGJJJIIIHIGIIIJJJIIJFIJI

第四行:Phred 质量打分

转换公式为:qsanger

  • Phred 分数是用ASCII 的 33 到 126 的字符编码的。
  • Illumina 1.3 -1.8 使用 ASCII 的 64 到 126 的字符来编码0-62的质量(但一般不超过40), 其中 分数0-2含义不同, 0和1不在使用,在reads 的 2(用 ASCII 的 大写字母 B 编码)作为Read Segment Quality Control Indicator。Illumina 手册指出:如果一条 read 的末尾有一段低质量的片段(小于等于Q15),则这段质量都被标记为 Q2,这里的约定表明从这里开始的片段不应该在分析中使用
  • 从 Illumina 1.8开始,质量分数又开始使用 Sanger 格式(Phred+33

ASCII 和 Phred 质量的对应关系

  • ASCII 表的0-31是控制字符,不能被打印出来,而 32-127为 printable characters。基本的数字(0-9,48到57)然后是大写字母(A-Z,65到90)然后是小写字母(a-z,97到122)

附录:ASCII 表

二进制 八进制 十进制 十六进制 字符
00100000 040 32 0x20 (space)
00100001 041 33 0x21 !
00100010 042 34 0x22 "
00100011 043 35 0x23 #
00100100 044 36 0x24 $
00100101 045 37 0x25 %
00100110 046 38 0x26 &
00100111 047 39 0x27 '
00101000 050 40 0x28 (
00101001 051 41 0x29 )
00101010 052 42 0x2A *
00101011 053 43 0x2B +
00101100 054 44 0x2C ,
00101101 055 45 0x2D -
00101110 056 46 0x2E .
00101111 057 47 0x2F /
00110000 060 48 0x30 0
00110001 061 49 0x31 1
00110010 062 50 0x32 2
00110011 063 51 0x33 3
00110100 064 52 0x34 4
00110101 065 53 0x35 5
00110110 066 54 0x36 6
00110111 067 55 0x37 7
00111000 070 56 0x38 8
00111001 071 57 0x39 9
00111010 072 58 0x3A :
00111011 073 59 0x3B ;
00111100 074 60 0x3C <
00111101 075 61 0x3D =
00111110 076 62 0x3E >
00111111 077 63 0x3F ?
01000000 100 64 0x40 @
01000001 101 65 0x41 A
01000010 102 66 0x42 B
01000011 103 67 0x43 C
01000100 104 68 0x44 D
01000101 105 69 0x45 E
01000110 106 70 0x46 F
01000111 107 71 0x47 G
01001000 110 72 0x48 H
01001001 111 73 0x49 I
01001010 112 74 0x4A J
01001011 113 75 0x4B K
01001100 114 76 0x4C L
01001101 115 77 0x4D M
01001110 116 78 0x4E N
01001111 117 79 0x4F O
01010000 120 80 0x50 P
01010001 121 81 0x51 Q
01010010 122 82 0x52 R
01010011 123 83 0x53 S
01010100 124 84 0x54 T
01010101 125 85 0x55 U
01010110 126 86 0x56 V
01010111 127 87 0x57 W
01011000 130 88 0x58 X
01011001 131 89 0x59 Y
01011010 132 90 0x5A Z
01011011 133 91 0x5B [
01011100 134 92 0x5C \
01011101 135 93 0x5D ]
01011110 136 94 0x5E ^
01011111 137 95 0x5F _
01100000 140 96 0x60 `
01100001 141 97 0x61 a
01100010 142 98 0x62 b
01100011 143 99 0x63 c
01100100 144 100 0x64 d
01100101 145 101 0x65 e
01100110 146 102 0x66 f
01100111 147 103 0x67 g
01101000 150 104 0x68 h
01101001 151 105 0x69 i
01101010 152 106 0x6A j
01101011 153 107 0x6B k
01101100 154 108 0x6C l
01101101 155 109 0x6D m
01101110 156 110 0x6E n
01101111 157 111 0x6F o
01110000 160 112 0x70 p
01110001 161 113 0x71 q
01110010 162 114 0x72 r
01110011 163 115 0x73 s
01110100 164 116 0x74 t
01110101 165 117 0x75 u
01110110 166 118 0x76 v
01110111 167 119 0x77 w
01111000 170 120 0x78 x
01111001 171 121 0x79 y
01111010 172 122 0x7A z
01111011 173 123 0x7B {
01111100 174 124 0x7C |
01111101 175 125 0x7D }
01111110 176 126 0x7E ~
01111111 177 127 0x7F