1. 程式人生 > >【生信】Fastq與Fasta格式

【生信】Fastq與Fasta格式

Fastq與Fasta格式

一、關於Fastq

FASTQ是基於文字的,儲存生物序列(通常是核酸序列)和其測序質量資訊的標準格式。其序列以及質量資訊都是使用一個ASCII字元標示,最初由Sanger開發,目的是將FASTA序列與質量資料放到一起,目前已經成為高通量測序結果的事實標準。

二、Fastq的格式

FASTQ檔案中每個序列通常有四行:

  • 第一行,序列標識以及相關的描述資訊,以‘@’開頭;
  • 第二行是序列;
  • 第三行以‘+’開頭,後面是序列標示符、描述資訊,或者什麼也不加;
  • 第四行,是質量資訊,和第二行的序列相對應,每一個序列都有一個質量評分,根據評分體系的不同,每個字元的含義表示的數字也不相同。

例如:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

三、關於Fasta

Fasta格式也稱為Pearson格式,是一種基於文字用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來編碼,且允許在序列前新增序列名及註釋。

四、Fasta格式

Fasta格式首先以大於號“>”開頭,接著是序列的識別符號;換行後是序列的描述資訊。換行後是序列資訊,檔案每行的字母一般不應超過80個字元。序列中允許存在空格,換行,空行,直到下一個大於號或檔案結束,表示該序列的結束。

例如:

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT