生信-RPKM與FPKM學習[轉載]
轉自:https://baike.baidu.com/item/RPKM/1197657
均反應基因的表達水平
1.RPKM的計算公式
分母是總共比對到這個基因的reads的數目(條 為單位),分母是:比對上的reads的總數(百萬條為單位);外顯子的長度也就是基因的長度(KB為單位)。
2.舉個計算的例子
3.為什麼需要這樣計算呢?
Reads Per Kilobase of exon model per Million mapped reads
具體含義是:每百萬reads中來自於某基因每千鹼基長度的reads數。
若是單純以map到的read數來計算基因的表達量,在統計上是不合理的。
因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表達量較高,而錯估基因真正的表現量。
4.FPKM計算公式
含義: FPKM代表每千個鹼基的轉錄每百萬對映讀取的碎片。
兩者就是分子不同,RPKM分子是reads,FPKM分子是fragment。
5. reads與fragment的區別
轉自:https://www.cnblogs.com/jinhh/p/8964790.html
Reads即是指下機後fastq資料中的每一條Reads,Fragments則是指每一段用於測序的核酸片段,在SE中,一個Fragments只測一條Reads,所以,Reads數與Fragments數目相等;在PE中,一個Fragments測兩端,會得到2條Reads,但由於後期質量或比對的過濾,有可能一個Fragments的2條Reads最後只有一條進入最後的表達量分析。總之,對某一對Reads而言,這2條Reads只能算一個Fragments,所以,Fragment的最終數目是Reads的1到2倍之間。
轉自:http://www.oebiotech.com/Article/jdcxzdcymc.html
Fragments:就是打成的片段,而測序測的就是這些fragments, 測出來的結果就是reads,又可以分為單端測序和雙端測序,單端測序的話,只是從fragments的一端測序,測多長read就多長,雙端測序就是從一個fragments的兩端測,就會得出兩個reads。
8.FPKM:將RPKM中的read換成freagment來理解。如果是single-end測序,二者FPKM和RPKM是一致的。如果是pair-end測序,每個fragments會有兩個reads,FPKM只計算兩個reads能比對到同一個轉錄本的fragments數量,而RPKM計算的是可以比對到轉錄本的reads數量。