RNA-Seq分析|RPKM, FPKM, TPM, 計算對比

阿新 • • 發佈：2018-07-06

cit 3.3 style fun per 常用 eight mage 對比

在分析了若幹轉錄組之後發現，處理數據的時候最重要的不是技巧多麽絢麗，你調包的能力有多麽強。而是把基本的概念特別是統計和數學上的方法咬爛嚼吐，才是真正理解和掌握了分析數據的底層原理：

在RNA-Seq的分析中，對基因或轉錄本的read counts數目進行normalization是一個extremely essential的過程，因為落在一個基因區域內的read counts數目取決於基因長度和測序深度。

Thats to say，一個基因越長，測序深度越高，落在其內部的read counts數目就會相對越多。

所以DE時，往往是在多個樣本（樣本來自不同組織、不同器官、不同個體、甚至做進化數據的時候是不同物種）中比較不同基因的表達量，如果不進行數據標準化，比較結果是沒有意義的。

Therefore，我們需要標準化的two key factors 就是基因長度和測序深度，常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Trans Per Million)作為標準化數值，前兩者都是DESeq2 package中的funcitons。但是實踐證明，在樣本差異過大或者需要更加精準的比較或者定量目標基因的表達量的時候，還是TPM最為準確和有效。

來源於YouTube的一張示意圖：

技術分享圖片

1、2、3樣本total reads=35、45、106

RPKM=10/35/2=1.43 （如下圖所示）

技術分享圖片

而TPM的有效性在於它的處理基因測序的深度和長度的順序是不同的。

即先考慮基因長度，再是測序深度：

技術分享圖片

最後算出來的TPM=3.33

而再比對一下最後結果的total after normalized reads

RPKM：

技術分享圖片

TPM：

技術分享圖片

當我們看到這個結果的時候，就應該馬上想到每個樣本的TPM的總和是相同的，這就意味著TPM數值能體現出certain樣本比對上target基因的reads的比例，而這個比例的總和在不同樣本之間是相同的，所以可以使得該數值可以直接進行樣本間的比較。

RNA-Seq分析|RPKM, FPKM, TPM, 計算對比

cit 3.3 style fun per 常用 eight mage 對比在分析了若幹轉錄組之後發現，處理數據的時候最重要的不是技巧多麽絢麗，你調包的能力有多麽強。而是把基本的概念特別是統計和數學上的方法咬爛嚼吐，才是真正理解和掌握了分析數據的底層原理：在RNA-Se

RNA-Seq分析|RPKM, FPKM, TPM, 計算對比

RNA-Seq分析|RPKM, FPKM, TPM, 計算對比

RNA-Seq分析軟件HTSeq的安裝

RNA-seq中的基因表達量計算和表達差異分析

更適合物聯網的邊緣計算，可能只是投機者的一塊雞肋（雲端計算和邊緣計算對比分析）

轉錄組分析綜述A survey of best practices for RNA-seq data analysis

RNA-seq資料綜合分析教程 AKAP95

TPM、read counts、RPKM/FPKM你選對了嗎？

利用R語言對RNA-Seq進行探索分析與差異表達分析

RNA-seq與miRNA-seq聯合分析

雲端計算和分散式計算，網格計算，平行計算對比分析

xgene：WGS，突變與癌，RNA-seq，WES

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

地震數據挖掘分析系統（雲計算處理、智能挖掘技術）

利用Python進行數據分析_Pandas_匯總和計算描述統計

Python 振動分析叠代法計算高階特征值及特征向量

一次rna-seq的過程-知乎live轉

【ArcGIS|空間分析】水文分析-地形特徵相關計算

RNA-seq流程需要進化啦！

De novo RNA-Seq Assembly Using De Bruijn Graphs

如何通過RNA-Seq瞭解轉錄本的結構

RNA-Seq分析|RPKM, FPKM, TPM, 計算對比

相關推薦