1. 程式人生 > >轉錄組分析綜述A survey of best practices for RNA-seq data analysis

轉錄組分析綜述A survey of best practices for RNA-seq data analysis

轉錄組分析綜述

轉錄組研究綜述文章解讀

今天介紹下小編最近閱讀的關於RNA-seq分析的文章,文章發在Genome Biology 上的A survey of best practices for RNA-seq data analysis 。由於文章較長和枯燥,小編認為重要的資訊,已經加粗加紅,可以直接看重要資訊。不要問我為啥這麼好,請叫我雷鋒。

 

摘要 

 

現在RNA-seq資料使用廣泛,但是沒有一套流程可以解決所有的問題。我們重點關注RNA-seq分析中的重要的幾步:實驗設計,質控,read比對,表達定量,視覺化,差異表達,識別可變剪下,功能註釋,融合基因檢測,eQTL定位等。

文章會討論每一步分析中的重點和麵臨的問題,另外最後說明了RNA-seq如何和其他資料相結合分析的。


背景

 

利用轉錄組資料來識別轉錄本和表達定量,是轉錄組資料的核心作用。由於這個作用,他可以不依賴其他組學資訊,單獨成為一個產品專案RNA-seq 測序。所以導致RNA-seq 徹底的火了起來。這之後出現了很多的行業標準和分析文件。這使得新的使用者為了做好實驗,不得不去認識和理解所有的實驗步驟。

目前的情況是沒有一成不變的流程,整個分析過程都是根據不同的物種,不同的設計目的進行變化的。本文中我們只關注常規RNA-seq分析。也就是摘要中主要說的那幾部分。

同時,文章指出在流程的整個過程中都應該新增check point  以期得到好的結果。 

1、實驗設計

 

想要獲得感興趣的生物學答案,實驗設計一定要合理。首先要對資料的建庫型別,測序深度和生物學重複進行選擇。另外就是保證測序機器執行充分,儘量少的產生無效資料。

這裡我們知道對轉錄組測序存在兩種方法:檢測polyA和核糖體剔除。對於真核而言,通常利用第一種方法,而對於細菌,沒有polyA,應該用第二種。

biocc_87c48c13_73b9_4339_b007_534f7843ac

文中指出轉錄組也應該多測些長片段,這可以提供比對效率和轉錄本識別能力。利用那種資料取決與分析的目的。如果研究的物種是註釋非常好的,只是來研究其表達水平,利用便宜和短的se就夠啦。但是如果註釋的不好的話,pe和長read 能發揮好的作用。

對於測序深度,取決於轉錄本的複雜程度,太低和太高都不好。

關於重複,應該是包括技術導致的重複,這個很難處理掉,只能在實驗的時候,多加小心,儘量避免。而對於人為設定的生物學重複,利用利用統計學工具進行過濾。

 

biocc_dc92a3e4_a0ee_4635_b849_b6a158b791
在實驗設計中,如果樣品太多,應該按照組別進行處理。這樣可以減少錯誤。

 

2、RNA-seq分析

 

RNA-seq文庫製備過程包括:RNA fragmentation, cDNA synthesis, adapter
ligation, PCR amplification, bar-coding, and lane loading)。這裡要注意資料的質量控制,文庫大小標準化,縮小鹼基偏好性: such as the use of adapters with random nucleotides at the extremities or the use of chemical-based
fragmentation instead of RNase III-based fragmentation. 

如果樣品太多,不得不用分開測序,或者在不同的lane上,一定要對batch effect 進行處理,以防其他因素影響實驗。

 

(1)質控點

 

<1>、原始資料

包括GC含量,資料質量,有無接頭,複製比例等。這裡同一個物種的樣品測序的資料中資訊應該是一致的。如果相差超過30%,應該被去掉。

這裡監控的軟體推薦fastqc和NGSqc。另外read兩端的資料如果質量很低,應該被切掉,這裡推薦工具:FASTX-toolkit和Trimmomatic。

<2>、read 比對

一個衡量標準是read比對效率。

文章測試中70-90%的read比對上了人的基因組。

另外一個是uniformity of read coverage on exons and the mapped strand.在利用polyA選擇進行轉錄組測序中如果read富集在3端,可能預示資料質量過低。

還有就是GC含量評估了鹼基的偏好性。推薦的軟體:RSeQC、Qualimap。

<3>、表達定量

檢測GC含量和基因長度的偏好,這樣可以更好的進行標準化,推薦的軟體

NOIseq EDASEQ。

<4>、生物學再現

這裡要對樣品相關性進行評估,比對spearman R2 >0.9。同時一定要對batch effect 進行評估和過濾。這裡主要可以利用PCA進行分析。(詳情見上一篇文章)

<5>、轉錄本識別

如果有參考,直接比對就可以啦,當時如果沒有參考,這裡首先愛你需要進行組裝,然後定進行表達定量。這裡建立用來組裝的和定量的資料要有從繼性和同步性。

 

(2)、比對


(3-1)、轉錄本識別

 

有參考的情況下,對轉錄本進行識別這裡用到的軟體根據不同的情況有以下幾個:GRIT、Cufflinks、StringTie、Augustus(輔助基因預測)等

利用短的序列其實是很難得到全長轉錄本的,同時起始和結尾預測也不準確。

biocc_16741b28_3688_4021_ac33_531ea4c585

(3-2)、從頭組裝

 

如果沒有參考,或者參考比較糟糕,我們需要自己從頭組裝。主要的軟體:SOAPdenovo-Trans [30], Oases [31], Trans-ABySS [32] or Trinity [33].對與低表達的區域,覆蓋太低,很難組裝出來,read覆蓋過高,又容易組裝錯誤。這裡建議如果存在多個樣品的時候,建議進行混樣組裝。

 

biocc_0294e634_6081_479a_ab08_01ecab28e6

(4)、轉錄本表達定量

 

通常都是通過read比對來做,也有通過kmer做的。可以利用raw counts of mapped read 進行評估,但是這個指標沒有考慮基因的長度和其他的因素。RPKM是一個去除了基因長度和文庫影響的組內標準化的指標,同樣的指標還有FPKM,RPKs,TPM等。主要的軟體:Cufflinks,RSEM (RNA-Seq by Expectation Maximization) , eXpress , Sailfish and kallisto 

(5)、差異表達分析

 

常用的軟體有很多,在使用的使用要注意每種軟體使用的資料分佈特徵。

同樣這裡很重要的是一定要對batch effect進行評估和過濾(COMBAT

)目前鮮有軟體對於不同的資料都表現良好,因此建議對於重要的結果,利用多個軟體綜合進行分析。

(6)、可變剪下分析

 

方法1:transcript expression and total gene expression  rSeqDiff:uses a hierarchical likelihood ratio test to detect differential gene expressionwithout splicing change and differential isoform expression simultaneously 方法2: exon-based  approach   detects signals of alternative splicing by comparing the distributions of reads on exons and junctions of the genes between the compared samples;

biocc_fabe63e5_60dc_4876_b372_066ecd62a1

(7)、視覺化

 

使用者需要通過視覺化看到read覆蓋在基因上的變化,以此來對結果魯棒性進行評估。

推薦的軟體:UCSC browser、Integrative Genomics Viewer (IGV)、Genome Maps、Savant 、RNAseqViewer等。

 

另外文章還介紹了融合基因檢測,sRNA和功能註釋等。

 

然後文章探究了RNA-seq和其他資料進行結合分析,包括基因組資料,甲基因資料,Chromatin features、MicroRNAs、Proteomics and metabolomics等。

最後文章對單細胞測序技術和三代測序進行對轉錄組測序的影響進行了說明:

single cell studies are meaningful only when a set of individual cell libraries are compared with the cell population, with the aim of identifying subgroups of multiple cells with distinct combinations of expressed genes   Long-read sequencing provides amplification-free, singlemolecule sequencing of cDNAs that enables recovery of full-length transcripts without the need for an assembly step