1. 程式人生 > >超幾何分佈與應用【轉載】

超幾何分佈與應用【轉載】

轉自:https://baike.baidu.com/item/%E8%B6%85%E5%87%A0%E4%BD%95%E5%88%86%E5%B8%83/4782968?fr=aladdin 

 https://www.jianshu.com/p/13f46bebebd4

1.定義

//這個說法比較好理解,就是抽取殘次品的概率。但是得提前知道有幾件不合格品,這個可以通過生產線的殘次率來估算的吧。

超幾何分佈是富集分析的常用方法,常用的GO富集分析都是用超幾何分佈計算的。下面將淺顯的探討一下超幾何分佈的原理。

//關於基因富集還需要學習,暫且放過。

在這裡我們做一個簡單的概念轉換即可知道軟體是如何做GO富集分析的:

  1. N為GO註釋資料庫中的總基因數;
  2. M為資料庫中屬於某個GO子類的基因數;
  3. n為我們得到的需要進行GO富集分析的基因的總數目;
  4. k為n中屬於M的數目。

因此我們就可以計算基因集n是否在M類中富集的概率。

2.例子

在基因富集中的P值計算公式:

上面式子的意思是: 從總N個基因抽n個基因, 作為分母,分子是M個基因有i個落在通路里,有n-i個不落在通路里。 p-value是指你觀察到m個基因落在通路里,比這還要更極端的概率之和,所以i是從m到M。 就是說看到更多的基因落在這個通路里的所有可能。

//也就是在基因富集中的應用就是通過超幾何分佈用來計算P值。