1. 程式人生 > >幾種常見的數學分佈

幾種常見的數學分佈

1. 什麼是數學期望

 舉個例子:某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個 (0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 10000 = 1.11  數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和 0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11

2. 概率密度與累積分佈

 概率密度一般的寫法是:P(X=a) = …,即X等於某個值a的可能性  累積分佈一般的寫法是:P(X<=a) = …,即X小於等於某個值a的所有可能性累加之和  這二者千萬別弄混,否則就會被各種公式繞暈。下圖是增量分佈的概率密度圖(橙色)和累積分佈圖(藍色)。

3. 常見的分佈

(1) 離散分佈:  伯努利分佈(零一分佈,兩點分佈),二項分佈,幾何分佈,泊松分佈(Poisson分佈)

(2) 連續分佈:  指數分佈,正態分佈(高斯分佈),均勻分佈

(3) 抽樣分佈:  卡方分佈(X2分佈),F分佈,T分佈

(4) 其它分佈:  多項分佈,Beta分佈,Dirichlet分佈

4. 伯努利分佈

(1) 應用場景  應用於兩種實驗結果。要麼成功,要麼失敗,一定程度上是二元的性質。比如:一個硬幣拋一次人結果。

(2) 描述  進行一次事件試驗,該事件發生的概率為p,不發生的概率為1-p,任何一個只有兩種結果的隨機現象都服從0-1分佈。

5. 二項分佈

(1) 應用場景  在獨立n次實驗中成功次數,比如:一個硬幣拋n次,k次正面朝上。

(2) 描述

 上圖是n=100, p=0.5(拋硬100次, 每一枚硬幣正面朝上的概率為0.5),圖中橫軸為正面朝上的次數,縱軸為概率,可以看出正面朝上50次的可能性最大,為0.08左右。

6. 泊松分佈

(1) 應用場景  某一區間內發生隨機事件次數的概率分佈,比如:每小時出生3個嬰兒,某網站平均每分鐘有2次訪問。

(2) 描述  一個離散型隨機變數X 滿足:

 這樣看起來就很抽象了,推薦看一看參考中的《如何通俗理解泊松分佈》,簡單地說一下上述公式怎麼用,以出生嬰兒為例,λ是每小時出生的嬰兒的平均數,k是3個嬰兒,P(X=3)是每小時出生3個嬰兒的概率。從λ中我們就能看出單位時間和發生事件的大概關係。

 上圖是λ=2時(平均每小時出生2個嬰兒),出生0個的概率為0.14,出生1個的概率為0.27…

7. 幾何分佈

(1) 應用場景  第一次成功所進行的試驗次數,比如:考幾次能通過,拋幾次硬幣能出現正面。

(2) 描述  幾何分佈由n次伯努利分佈構成,隨機變數X表示第一次成功所進行試驗的次數

 從公式中很容易看出,經歷了k-1次不中,和一次命中,以拋硬幣為例,P(X=3)是拋三次能拋到一次正面向上概率,前兩次都是背面朝上,第三次正面朝上。如果單個硬幣正面朝上的概率為0.5,那麼期望是2次。 與二項分佈相比,二項分佈是拋n次硬幣,有幾次正面朝上,幾何分佈是拋幾次出現第一次正布朝上。

 上圖是p=0.5時的幾何分佈,橫軸是次數,可見拋一次就中的可能性最大為0.5,兩次中的可能性為0.25…,次數越多,概率越小,整體平均下來基本是兩次左右,因此,期望為2。從期望就可以看出,拋第幾次能出正面,主要還是取決於硬幣本身正面朝上的概率。

8. 指數分佈

(1) 應用場景  兩次隨機事件發生時間間隔的概率分佈,比如:嬰兒出生的時間間隔,網站訪問的時間間隔。

(2) 描述  指數分佈滿足以下概率密度函式公式

 λ> 0是分佈的一個引數,常被稱為率引數(rate parameter)。即每單位時間內發生某事件的次數,還是生小孩為例,公式中的x是生兩個孩子的時間間隔。  假設平均每一小時出生兩個嬰兒,則單位時間1小時出生2個嬰兒,λ=2,期望e=0.5(平均間隔0.5小時),如左圖所示。

 假設平均每兩小時出生一個嬰兒,則單位時間1小時出生0.5個嬰兒,λ=0.5,期望E=2(平均間隔2小時),如右圖所示。 λ越大,曲線下降越快,可見,指數分佈是幾何分佈的加強版。

 上圖中x軸是時間間隔,y軸是概率,不是說概率之和為1嗎?為什麼間隔為0的概率大於1呢?因為這是連續分佈,某一點概率大於1(但它所在區域很窄),也不影響函式線下面積之和為1。

9. 正態分佈

(1) 應用場景  連續型資料或者資料離散性小,資料基本符合正態分佈特點。比如:群體的身高,智商,考試分數(中間多兩邊少)。

(2) 描述  若隨機變數X服從一個數學期望為μ、方差o^2 為的高斯分佈,記為N(μ,o^2)

 上圖是μ=1, o=2.0的正態分佈,簡單地說,就是基本都分佈在以μ為中心,分散在o範圍之內,比如:全班平均分80分,考100的也少,不及格的也少。

10. 抽樣分佈

(1) 一些概率

i. 抽樣  如果整體樣本可以一個一個判斷叫普查,如果整體樣本太多,沒法一個一個判斷,只能取一部分代表整體,叫抽樣。

ii. 統計量  統計量是根據樣本資料計算出來的一個量,他是樣本的函式,通常我們所關心的樣本統計量有品均數、樣本標準差等等。

iii. 抽樣分佈  抽樣分佈也稱統計量分佈,以樣本平均數為例,它是總體平均數的一個估計量,如果按照相同的樣本容量,相同的抽樣方式,反覆地抽取樣本,每次可以計算一個平均數,所有可能樣本的平均數所形成的分佈,就是樣本平均數的抽樣分佈。卡方分佈,T分佈,F分佈都是抽樣分佈。

(2) 卡方分佈  設 X1,X2,......Xn相互獨立, 都服從標準正態分佈N(0,1), 則稱隨機變數χ2=X12+X22+......+Xn2所服從的分佈為自由度為 n 的χ2分佈.

(3) T分佈  設X1服從標準正態分佈N(0,1),X2服從自由度為n的χ2分佈,且X1、X2相互獨立,則稱變數t=X1/((X2/n)^(1/2)) 所服從的分佈為自由度為n的t分佈。

(4) F分佈

 設X1服從自由度為m的χ2分佈,X2服從自由度為n的χ2分佈,且X1、X2相互獨立,則稱變數F=(X1/m)/(X2/n)所服從的分佈為F分佈,其中第一自由度為m,第二自由度為n 。

11. 參考