1. 程式人生 > >RNA-seq資料綜合分析教程 AKAP95

RNA-seq資料綜合分析教程 AKAP95

RNA-seq資料綜合分析教程

  • A+
所屬分類: Transcriptomics   收  藏   RNA-seq資料綜合分析教程  

RNA-seq資料分析

mRNA-seq是目前最常用的高通量測序技術,一般的用法就是看看基因表達譜,尋找差異表達的基因。我和高通量測序資料分析結緣,也是因為RNA-seq

一開始我對mRNA-seq資料分析一無所知,跑了"tophat+cufflinks"的流程也不知道每一步的原因,把“RNA-seq data analysis:A pratice approach” 看了好幾遍,也是雲裡霧裡,當然這些時間並沒有白白浪費,終於有一天我恍然大悟,感覺自己終於懂了mRNA-seq資料分析,於是在暑假通過一次實戰對自己的所學做了一個總結。

但是到目前為止,我實際遇到mRNA-seq資料分析分析專案就一個,不過問我問題的人還是有的,於是打算一邊整理實驗的流程,再稍微整理下自己的對這方面的理解。

先來看一道RNA-seq資料分析的題目吧,能解決這道題目意味著你真的理解了RNA-seq資料分析。這道問題很簡單,不需要強大的計算能力,只需要一張紙和一支筆而已。

這道題目出自 The biostar handbook

假設有一個物種非常的小,僅僅只有三個基因: A, B, C,並且這三個基因都轉錄本長度分別為10bp, 100bp, 1000bp. 你想通過兩個不同的條件下研究該物種,分別是野生型(WT)和熱激後(HWEAT)。

由於神祕力量,你知道在WT條件下,基因A的表達量是基因B的表達量的兩倍,你還知道在WT和HEAT兩個條件中只有一個基因發生了變化(其他基因不變),並且該變化能用目前研究手段中檢測到。

你為了找那個在WT和HEAT裡不同的基因,非常激動的去做了一次沒有重複的RNA-seq實驗。由於你很激動,所以不小心把樣本混在了一起,而且混了比HEAT處理多一倍WT的DNA量。不過好訊息是樣本還是能夠分開的,畢竟加了barcode。最終結果就是你測了2倍的WT DNA和一倍的HEAT。

問題:你需要準確的用read覆蓋情況來表徵根據上述給的條件。數字不重要,你可以隨便寫,重點是這些數字能夠表徵基因的表達情況。請用實際的數字來替代下面的問號部分

ID WT HEAT
A ? ?
B ? ?
C ? ?

思考題:當你覺得你選擇的數字能夠回答上面的問題,那麼再來想想下面的題目,如果你能回答所有問題,那麼那就理解RNA-seq是如何工作的啦。

  • 由於你在儀器裡放了兩倍WT材料,你是如何區分出你的樣本?
  • 每個條件下,每個基因的CPM是多少?
  • 每個條件下,每個基因的RPKM是多少?
  • 每個條件下,每個基因的TPM是多少?
  • 你怎麼知道基因在WT樣本中,基因A的表達量真的是基因B表達量的兩倍?
  • 你能知道WT和HEAT處理中表達量發生變化的基因嘛?
  • 當前面的3X2的位置的“?”都有了正確的值,這個問題也是可解決的嘛?

然後,你可以再想想:

  • 你需要測多少的read,才能讓CPM有一個不錯的數值?
  • 你需要測多少的read,才能讓RPKM有一個不錯的數值?
  • 你需要測多少的read,才能讓TPM有一個不錯的數值?
  • 你覺得引入上述這些具有任意比例因子的措施是否有意義,還是隻為了讓數字看起來“很好”?