RNA-Seq分析|RPKM, FPKM, TPM, 計算對比
在分析了若幹轉錄組之後發現,處理數據的時候最重要的不是技巧多麽絢麗,你調包的能力有多麽強。而是把基本的概念特別是統計和數學上的方法咬爛嚼吐,才是真正理解和掌握了分析數據的底層原理:
在RNA-Seq的分析中,對基因或轉錄本的read counts數目進行normalization是一個extremely essential的過程,因為落在一個基因區域內的read counts數目取決於基因長度和測序深度。
Thats to say,一個基因越長,測序深度越高,落在其內部的read counts數目就會相對越多。
所以DE時,往往是在多個樣本(樣本來自不同組織、不同器官、不同個體、甚至做進化數據的時候是不同物種)中比較不同基因的表達量,如果不進行數據標準化,比較結果是沒有意義的。
Therefore,我們需要標準化的two key factors 就是基因長度和測序深度,常常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Trans Per Million)作為標準化數值,前兩者都是DESeq2 package中的funcitons。但是實踐證明,在樣本差異過大或者需要更加精準的比較或者定量目標基因的表達量的時候,還是TPM最為準確和有效。
來源於YouTube的一張示意圖:
1、2、3樣本total reads=35、45、106
RPKM=10/35/2=1.43 (如下圖所示)
而TPM的有效性在於它的處理基因測序的深度和長度的順序是不同的。
即先考慮基因長度,再是測序深度:
最後算出來的TPM=3.33
而再比對一下最後結果的total after normalized reads
RPKM:
TPM:
當我們看到這個結果的時候,就應該馬上想到每個樣本的TPM的總和是相同的,這就意味著TPM數值能體現出certain樣本比對上target基因的reads的比例,而這個比例的總和在不同樣本之間是相同的,所以可以使得該數值可以直接進行樣本間的比較。
RNA-Seq分析|RPKM, FPKM, TPM, 計算對比