【生信】Fastq與Fasta格式

阿新 • • 發佈：2018-11-13

Fastq與Fasta格式

一、關於Fastq

FASTQ是基於文字的，儲存生物序列（通常是核酸序列）和其測序質量資訊的標準格式。其序列以及質量資訊都是使用一個ASCII字元標示，最初由Sanger開發，目的是將FASTA序列與質量資料放到一起，目前已經成為高通量測序結果的事實標準。

二、Fastq的格式

FASTQ檔案中每個序列通常有四行：

第一行，序列標識以及相關的描述資訊，以‘@’開頭；
第二行是序列；
第三行以‘+’開頭，後面是序列標示符、描述資訊，或者什麼也不加；
第四行，是質量資訊，和第二行的序列相對應，每一個序列都有一個質量評分，根據評分體系的不同，每個字元的含義表示的數字也不相同。

例如：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

三、關於Fasta

Fasta格式也稱為Pearson格式，是一種基於文字用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來編碼，且允許在序列前新增序列名及註釋。

四、Fasta格式

Fasta格式首先以大於號“>”開頭，接著是序列的識別符號；換行後是序列的描述資訊。換行後是序列資訊，檔案每行的字母一般不應超過80個字元。序列中允許存在空格，換行，空行，直到下一個大於號或檔案結束，表示該序列的結束。

例如:

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT

【生信】Fastq與Fasta格式

Fastq與Fasta格式

【生信】Fastq與Fasta格式

【生信】KEGG資料庫線上使用

【生信】Docker生信基礎

【生信】“隨機森林”在生物資訊學方面的應用

Fastq與Fasta格式

084-【生信軟體】-ANNOVAR軟體幫助文件

【C/C++】C實現gzip格式的壓縮與解壓Demo

0079-【生信軟體】-人類基因組hg19、hg38構建bwa索引

【Java基礎】RTTI與反射之Java

【巨坑】springmvc 輸出json格式數據的幾種方式！

tomcat【Linux環境】安裝與啟動

【最小樹形圖(奇怪的kruskal)】【SCOI 2012】【bzoj 2753】滑雪與時間膠囊

【幹貨】Html與CSS入門學習筆記12-14【完】

【持久化框架】Mybatis與Hibernate的詳細對比

【深入JAVA】RTTI與反射

【微信】微信小程序微信開發工具中新創建的json文件，編譯報錯VM1781:2 pages/module/module.json 文件解析錯誤 SyntaxError: Unexpected end of JSON input

【微信】微信小程序微信開發工具創建js文件報錯 pages/module/module.js 出現腳本錯誤或者未正確調用 Page()

【實驗5】類與對象3

【微信】QQ郵箱助手不提醒解決

【哈希】兔子與兔子

【生信】Fastq與Fasta格式

Fastq與Fasta格式

相關推薦