1. 程式人生 > 其它 >學IGV必看的初級教程

學IGV必看的初級教程

Integrative Genomics Viewer (IGV)作為一個高效能的視覺化工具,可以互動式的察看綜合的基因組相關資料,也友好的支援多種資料型別,自然是生信工作者必須使用的利器之一。官網也提供了很詳細的使用講解,這裡僅是根據我目前需要學習摘錄部分做的整理,後面有時間再做其他整理。

目錄

1. 輸入資料準備

2. 主介面

3. 資料匯入

4. 察看序列比對結果

5. 察看可變剪下情況

6. 察看變異

7. 參考資料

1. 輸入資料準備

IGV可以匯入多種型別的資料,詳見下文的資料匯入介紹,此處主要說的是排序後的 bwa 的比對檔案:bowtie2/BWA + samtools (samtools view>samtools sort>samtools index) 處理結果或RNA-seq的 Tophat結果;

2. 主介面

2.1 基礎主介面

1.工具欄;

2.紅框表示顯示當前染色體的相應區域;

3.刻度線表示所處位置座標;

4.tracks區域,也即 Alignment Track區;主要的資訊區,通常會顯示甲基化、基因表達、拷貝數、雜合性缺失(Loss of Heterozygosity)、突變等資訊;對應的有三種顯示形式:Collapsed、Squished 和 Expanded;

5. 特徵顯示區;藍色粗線—外顯子區域,細線內含子區域,空白—基因間隙;

6.列出 Track names,即匯入的比對結果名稱;

7.屬性面板;

2.2 結果介面說明

(1) 處可手動輸入想要察看的染色體/contigs/scaffolds編號,然後回車察看;

(2) 處是參考序列對應的核酸序列,其中四種核酸分別用不同的顏色表示:(A, C, G, T),下面為對應的翻譯的氨基酸序列,甲硫氨酸(M)用綠色表示,終止密碼子(*)紅色星號表示;當右上角的標尺足夠大時此區域才會顯示;

(3) 處不同顏色條表示排序方式,滑鼠停留在此處右鍵選擇 <Color alignments by> 可選取不同的顏色形式;同時每一個長條對應的序列和比對資訊可以滑鼠右鍵選擇來拷貝;每一個長條都是由一系列的核酸序列組成,可通行 <Show all bases> 來顯示;比對的reads長條也可通過成對的形式顯示;

(4) 處滑鼠停留時會顯示此處鹼基統計資訊,例如在此處顯示為紅藍色,紅色是T,藍色是C,紅色方塊大於藍色,表示所有比對到這一位置的序列中這一位點鹼基是T的序列大於C的,即C可能是突變;當匯入資料為比對的bam資料時,此處所在區域為 Coverage Track

3. 資料匯入

當資料通過 <File> 匯入時,IGV通過匯入檔案的副檔名來確認資料格式 (file format),進而確定資料型別 (data type),再確定資料展現的 Track 形式 (track default display options);如下所示(此預設值均可修改):

4. 察看序列比對結果

1.可通過 View >>Preferences >>Alignments 面板設定相關引數;

2.在 Track 區不進行 Color alignments by 的情況下,alignments 只有亮灰和白色兩種長條,其中白色的比對質量為零 (mapping quality equal to zero);

3.插入:用紫色的 I 或紅色的 I (當插入的鹼基數多餘預設的閥值時)表示;滑鼠停留察看詳細的插入鹼基情況;

4.缺失:黑條表示;

5.Sort alignments by 可對Track區域進行排序,如想返回最初結果則選擇 Re-pack alignments 即可;

6.預設情況下 Track Alignments 區以左圖緊湊的單個 reads 的形式展示,通過 View as pairs 可成對顯示,且中間以細線連線 (右圖);

在左圖中按住 Ctrl 鍵滑鼠左擊某一個長條 (a read),將以相同的彩色顏色顯示出與其配對 (paired mate) 的另一條 read。黑色的表示沒有與之配對的另一條read。選中一條 read 後右鍵 Go to Mate 將會跳轉到與其配對 (paired mate) 的另一條 read。If the paired reads have a large insert size, the paired mate will not be highlighted. 右鍵選擇 Clear Selections 來清除所有選擇的reads。同時注意到不同reads會用不同的顏色表示 (藍色:插入大小小於期望值;紅色:插入大小大於期望值;綠色、青色、深藍色:倒置、重複、易位事件),更多詳情見:Interpreting Color by Insert Size 和 Interpreting Color by Pair Orientation;低解析度下在 Track Alignments 區域選擇 Color alignments by >> insert size and pair orientation 時比對的reads會顯示不同的顏色 (Red have larger than expected inferred sizes, and therefore indicate possible deletions; Blue have smaller than expected inferred sizes, and therefore indicate insertions;實心灰代表比對質量比較高的測序片段,空心灰代表比對到此處的測序片段也可以比對到其他位點。),高解析度下,可以精確到每個位點的鹼基型別:當比對序列上與參考基因組相同的超過80%時,用灰色表示;否則用紅色-T,藍色-C,綠色-A,橙色-G;Translocations on the same chromosome can be detected by color-coding for pair orientation, whereas translocations between two chromosomes can be detected by coloring by insert size.

7.Paired-end alignment tracks 時 (View as pairs),右鍵選擇 View mate region in split screen 可分隔顯示;可實現多個分隔;在下圖處右鍵選擇 Switch to standard view 或滑鼠左鍵雙擊可返回單個分割槽;

5. 察看可變剪下情況

1.Loaded junctions data in the standard .bed format (例如TopHat’s “junctions.bed”等輸出檔案);

1234567

|-- accepted_hits.bam|-- accepted_hits.bam.bai|-- deletions.bed|-- insertions.bed|-- junctions.bed|-- unmapped.bam`-- unmapped.bam.bai

6. 察看變異

6.1 Mutation Files:MAF (mutation annotation format) and MUT (mutation)檔案;

6.2 VCF Files

1.Each bar across the top of the plot shows the allele fraction for a single locus.

2.The genotypes for each locus in each sample. Dark blue = heterozygous, Cyan = homozygous variant, Grey = reference. Filtered entries are transparent.

7. 參考資料

IGV應用教程

原文許多超連結內容(下劃線部分)由於外鏈原因無法點選,同時圖片清晰度可能不夠高,因此推薦閱讀原文