RNA-seq資料綜合分析教程 AKAP95
RNA-seq資料綜合分析教程
- A+
mRNA-seq是目前最常用的高通量測序技術,一般的用法就是看看基因表達譜,尋找差異表達的基因。我和高通量測序資料分析結緣,也是因為RNA-seq。
一開始我對mRNA-seq資料分析一無所知,跑了"tophat+cufflinks"的流程也不知道每一步的原因,把“RNA-seq data analysis:A pratice approach” 看了好幾遍,也是雲裡霧裡,當然這些時間並沒有白白浪費,終於有一天我恍然大悟,感覺自己終於懂了mRNA-seq資料分析,於是在暑假通過一次實戰對自己的所學做了一個總結。
- 轉錄組入門(1):軟體準備
- 轉錄組入門(2):讀文章拿到測序資料
- 轉錄組入門(3):質量控制
- 轉錄組入門(4):瞭解參考基因組及基因註釋
- 轉錄組入門(5): 序列比對
- 轉錄組入門(6): reads計數
- 轉錄組入門(7):差異表達分析
- 轉錄組入門(8): 富集分析
但是到目前為止,我實際遇到mRNA-seq資料分析分析專案就一個,不過問我問題的人還是有的,於是打算一邊整理實驗的流程,再稍微整理下自己的對這方面的理解。
先來看一道RNA-seq資料分析的題目吧,能解決這道題目意味著你真的理解了RNA-seq資料分析。這道問題很簡單,不需要強大的計算能力,只需要一張紙和一支筆而已。
這道題目出自 The biostar handbook
假設有一個物種非常的小,僅僅只有三個基因: A, B, C,並且這三個基因都轉錄本長度分別為10bp, 100bp, 1000bp. 你想通過兩個不同的條件下研究該物種,分別是野生型(WT)和熱激後(HWEAT)。
由於神祕力量,你知道在WT條件下,基因A的表達量是基因B的表達量的兩倍,你還知道在WT和HEAT兩個條件中只有一個基因發生了變化(其他基因不變),並且該變化能用目前研究手段中檢測到。
你為了找那個在WT和HEAT裡不同的基因,非常激動的去做了一次沒有重複的RNA-seq實驗。由於你很激動,所以不小心把樣本混在了一起,而且混了比HEAT處理多一倍WT的DNA量。不過好訊息是樣本還是能夠分開的,畢竟加了barcode。最終結果就是你測了2倍的WT DNA和一倍的HEAT。
問題:你需要準確的用read覆蓋情況來表徵根據上述給的條件。數字不重要,你可以隨便寫,重點是這些數字能夠表徵基因的表達情況。請用實際的數字來替代下面的問號部分
ID | WT | HEAT |
---|---|---|
A | ? | ? |
B | ? | ? |
C | ? | ? |
思考題:當你覺得你選擇的數字能夠回答上面的問題,那麼再來想想下面的題目,如果你能回答所有問題,那麼那就理解RNA-seq是如何工作的啦。
- 由於你在儀器裡放了兩倍WT材料,你是如何區分出你的樣本?
- 每個條件下,每個基因的CPM是多少?
- 每個條件下,每個基因的RPKM是多少?
- 每個條件下,每個基因的TPM是多少?
- 你怎麼知道基因在WT樣本中,基因A的表達量真的是基因B表達量的兩倍?
- 你能知道WT和HEAT處理中表達量發生變化的基因嘛?
- 當前面的3X2的位置的“?”都有了正確的值,這個問題也是可解決的嘛?
然後,你可以再想想:
- 你需要測多少的read,才能讓CPM有一個不錯的數值?
- 你需要測多少的read,才能讓RPKM有一個不錯的數值?
- 你需要測多少的read,才能讓TPM有一個不錯的數值?
- 你覺得引入上述這些具有任意比例因子的措施是否有意義,還是隻為了讓數字看起來“很好”?