SAM檔案格式詳解
阿新 • • 發佈:2019-01-03
生物資訊上的東西,由於發展的時間不長,所以各種標準都不算是廣泛傳播。
尤其是檔案格式之類的,中文版的資料很少,不少英文版的說明也不是很清晰。
這裡對SAM格式進行一下解釋,希望對新人有所幫助。
如下是SAM檔案中的一行
FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG 99 chr10 60001 0 90M = 60390 479 GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90 XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30
一共12列,每一列含義如下:
1. read的名字,也就是ID(如果是雙短測序的話,則同一個ID會有兩條reads)
2. flag,為各個標誌的和,下面會有詳細說明
3. 比對到的染色體號
4. 第一個比對上的鹼基所在位置
5. 質量值
6. CIGAR,下面會有詳細說明
7. mate比對上的染色體號,如果是“=”,則表示在同一條染色體上
8. mate第一個比對上的鹼基所在位置
9. 該read和mate的距離
10. 序列
11. 序列對應的質量值
12. 標記
CIGAR含義解釋
一個稍複雜的CIGAR例子:
4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S
S表示 solf clip, 4S就表示4個鹼基沒有比對上
M表示 match 或者 mismatch 153M表示連續153個鹼基都比對上了。
為什麼會有