1. 程式人生 > >NGS【1.1.3】SAM & BAM檔案

NGS【1.1.3】SAM & BAM檔案

SAM檔案格式

1)SAM(Sequence Alignment/Map format):即序列比對檔案的格式

2)BAM檔案分為兩部分:註釋資訊(header section)和比對結果部分(alignment section)

註釋資訊部分

@HD:表示參考基因組的排序情況

@SQ:參考基因組的每一條序列的具體資訊,命名和長度

@PG:記錄執行的命令,以便你檢查程式碼

@CO:給出每個read所在group的資訊,只要保證是獨一即可

比對結果部分

ST-E00600:292:HMVHGCCXY:8:1102:7517:63314	83	chr1	569353	60	132M	=   569353	-132	CACCAACCACCCAACTATCTATAAACCTAGCCATGGCCATCCCCTTATGAGCGGGCGCAGTGATTATAGGCTTTCGCTCTAAGATTAAAAATGCCCTAGCCCACTTCTTACCACAAGGCACACCTACACCCC	JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFAFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFFFAA	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:132	YS:i:0	YT:Z:CP	XS:A:+	NH:i:1	RG:Z:NC

一共12列,每一列含義如下: 
QNAME       1. read的名字,也就是ID(如果是雙短測序的話,則同一個ID會有兩條reads) 
FLAG        2. flag,為各個標誌的和,下面會有詳細說明 
RNAME       3. 比對到的染色體號 
POS         4. 第一個比對上的鹼基所在位置 
MAPQ        5. 比對質量值 
CIGAR       6. CIGAR
            7. mate比對上的染色體號,如果是“=”,則表示在同一條染色體上 
            8. mate第一個比對上的鹼基所在位置 
            9. 該read和mate的距離 
SEQ         10. read序列 
QUAL        11. read序列質量值 
Metadata    12. 標記

詳細資訊

flag資訊

1   代表Pair-End(PE)測序,0則代表Sigle-End(SE)測序
2   代表正常比對,如果是PE測序,還代表PE的兩條read之間的比對距離麼有明顯偏離插入片段長度
4   該read沒有比對到參考序列
8   PE測序的另一個配對的read沒有比對到參考序列,注意並不是指當前read比對
16  反向互補後比對到參考序列,即比對到負鏈
32  PE測序的另一條配對read反向互補後比對到參考序列
64  PE測序read1
128 PE測序read2
256 二次比對
512 低於過濾閾值
1024
2048


CIGAR

M:匹配(包含完全匹配和單鹼基錯配)
I:序列插入(包含潛在的Insertion變異)
D:序列刪除(包含潛在的Deletion變異)
N:跳過參考序列,常見於RNA-seq資料的比對
S:軟跳過(soft clip),跳過read中的部分序列,不會改變read的長度
H:硬跳過(hard clip),直接剪下掉read中分佈序列,會改變read的長度
P:padding,簡單來說和N類似,也是read比對時中間跳過參考序列的部分割槽域
=:完全匹配(很少用)
X:序列錯配(很少用)
B:BAM_CBACK(很少用)

相關推薦

NGS1.1.3SAM & BAM檔案

SAM檔案格式 1)SAM(Sequence Alignment/Map format):即序列比對檔案的格式 2)BAM檔案分為兩部分:註釋資訊(header section)和比對結果部分(alig

1.2.2Linux學習-檔案許可權

各欄位含義 [[email protected] soft]$ ll total 20008 drwxrwxr-x. 8 wujiadong wujiadong 4096 Oct 11

時間、日期選擇器安卓3

ear hour getc enable pic style min 判斷 eight TimePicker(時間選擇器) 方法 描述 Integer getCurrentHour () 返回當前設置的小時 Integer getCurren

下拉列表框安卓3

pan activity border cin left 資源 pro 內容 1.0 Spinner(下拉列表框) 方法 描述 CharSequence getPrompt () 取得提示文字 void setPrompt(CharSeque

例6.3刪數問題(Noip1994)

logs lan cin clas pac i++ wlan 描述 status 【例6.3】刪數問題(Noip1994) 鏈接:http://ybt.ssoier.cn:8088/status.php?start=0&showname=edsheeran&

TP3.2.3微信網頁授權--基類

重新 exec 進入 index.php sset AR 關註 fun func 非常好用的微信授權 基類:其他的微信權限類都可以繼承至該類: <?php namespace Wechat\Controller; use Think\Controller;

WebGL入門3相機參數及光照模型

但是 一個 設置 phi 模塊 之間 光源 top pen 透視相機:PerspectiveCamera( fov, aspect, near, far )   1、視角fov:這個最難理解,我的理解是,眼睛睜開的角度,即,視角的大小,如果設置為0,相當你閉上眼睛了,所以什

sublime text 3sublime text 3 漢化

ctr ima 菜單 ati tex TP pac ont 主頁 快捷鍵:Ctrl+Alt+P 輸入快捷鍵Ctrl+Shift+P 在出現的文本框中輸入Install Package(或直接輸入“ip”)選中packageControl:Install Package並

多媒體學習3

  【知識點】 【hsl顏色模式】h:色相  0-360,s:飽和度 0-100%,l:亮度 0-100% 【強制轉換int】a=parseInt(a) 【隨機數函式,生成[0,1)】Math.random() 【生成0-360的隨機數】a=parseInt(

2018.11.3阿伏伽德羅 / 聯絡 / 歐幾里得距離

int main(){   while(模擬賽) 降智++;     return inf; } 題目 T1 剛看到題時還以為不可做,重新看了幾遍之後才發現以前好像做過…… 做法很顯然吧…… 由於第一行存在 $1-n$ 的數各一個,我們可以先把列 按照第一行的數從大到小排序

USACO1.6.3Prime Palindromes數論,數學模擬

題目大意: 題目連結:http://train.usaco.org/usacoprob2?a=iLZIJL4lyhX&S=pprime 求 l

網路協議-3Socket

1.Socket(套接字): Socket是對TCP/IP協議的封裝,Socket本身並不是協議,而是一個呼叫介面(API),Socket只是為了更方便地使用TCP/IP協議棧而已,是對TCP/IP協議的抽象,提供給我們一些最基本的函式介面。 流式套接字(SOCK_STREAM):

網路協議-3TCP/UDP協議

TCP報頭格式: 一共20個位元組; 源、目標埠號欄位:各佔2個位元組,18位元。TCP協議通過使用”埠”來標識源端和目標端的應用程序。埠號可以使用0到65535之間的任何數字。在收到服務請求時,作業系統動態地為客戶端的應用程式分配埠號。在伺服器端,每種服務在"眾所周知"的埠”(

排序演算法3希爾排序

此篇我是17年7月份有幸閱讀到MoreWindows的此篇部落格 希爾排序 可惜的是當時不是很懂。又因工作繁忙以至於忘了此事。直到最近換完工作才有想起有此坑還未填上,便又翻出看了一遍。這次有了全新的認識。特此記錄 現在才想起當時為何看的不是很懂,是因為此篇部落格中的實驗中間省略了一小

CCF 201809-3元素選擇器

思路 ①處理每一行: 每一行都處理為一個結構體,包含3個屬性:級別(rank)、元素名稱(element)、id名稱 級別 = 點的數量 / 2 元素名稱 & id名稱 都可以通過字串

2018.09.29洛谷P2106Sam數(數位DP)(矩陣快速冪)

傳送門 解析: 其實這種只用位數轉移的數位DPDPDP,大概都可以用矩陣快速冪推。本質原因是每層的轉移方程與這是第幾層無關,比如這道題。 思路: 可以發現一個很顯然的情況,就是上面說的,這道題可以矩陣

USACO2.4.3洛谷P1522牛的旅行最短路並查集

題目大意: 題目連結: USACO:http://train.usaco.org/usacoprob2?a=TyEfGmq7aAo&S=cowtour 洛谷:https://www.luogu.org/problemnew/show/P1522 有一個無

RabbitMQ Publish/Subscribe for Java入門教程 3

 首先通過上面兩個入門教程我們引入本文: Publish/Subscribe:在上一章中,我們學習建立了一個訊息佇列,她的每個任務訊息只發送給一個佇列,然後佇列的資訊由消費者各自消費。這一章,我們會將同一個任務訊息傳送給多個佇列。這種模式就是“釋出/訂閱”。為了將訊息傳送

WebAPI No.3API的訪問控制IdentityServer4

介紹: IdentityServer是一個OpenID Connect提供者 - 它實現了OpenID Connect和OAuth 2.0協議。是一種向客戶發放安全令牌的軟體。 官網給出的功能解釋是: 保護您的資源 使用本地帳戶儲存或通過外部身份提供商對使用者進行身份驗證 提供會話管理和單點登入

Sublime Text 3——Decode error - output not utf-8

問題:在用Sublime Text 3 編寫python程式後,編譯執行錯誤:[Decode error - output not utf-8]   原因:Sublime Text 3編輯器預設只支援utf-8   解決:安裝converttoUTF8外掛。