1. 程式人生 > >概率分佈(多項分佈,Dirichlet分佈)

概率分佈(多項分佈,Dirichlet分佈)

在機器學習領域中,概率模型是一個常用的利器。用它來對問題進行建模,有幾點好處:1)當給定引數分佈的假設空間後,可以通過很嚴格的數學推導,得到模型的似然分佈,這樣模型有很好的概率解釋;2)可以利用現有的EM演算法或者Variational method來學習。通常為了方便推導引數的後驗分佈,會假設引數的先驗分佈是似然的某個共軛分佈,這樣後驗分佈和先驗分佈具有相同的形式,這可以大大簡化建模過程中的數學推導,保證最後的形式是tractable。

在概率模型中,Dirichlet這個詞出現的頻率非常的高。初學機器學習的同學,在學習概率模型的時候,很多同學都不清楚為啥一個表現形式如此奇怪的分佈Dirichlet分佈會出現在我們的教科書中,它是靠啥關係攀上了多項分佈(Multinomial distribution)這個親戚的,以至於它可以“堂而皇之”地扼殺我大天朝這麼多數學家和科學家夢想的?為了引出背後這層關係,我們需要先介紹一個概念——共軛先驗(Conjugate Prior)。

  • 在貝葉斯統計理論中,如果某個隨機變數Θ的後驗概率 p(θ|x)和其先驗概率p(θ)屬於同一個分佈簇的,那麼稱p(θ|x)和p(θ)為共軛分佈,同時,也稱p(θ)為似然函式p(x|θ)的共軛先驗。
  • 事情還沒有發生,要求這件事情發生的可能性的大小,是先驗概率。事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小,是後驗概率。

1、累積分佈函式(分佈函式)(CDF-Cumulative Distribution Function)

分佈函式的定義為

FX(x)=P(Xx)
假設P(X=0)=14,P(X=1)=12,P(X=2)=14,那麼分佈函式如下圖所示:
圖片

這裡需要注意兩點
  • 函式是右連續的
  • FX(1.4)=34, 這裡P(1X<2)=12

因此F函式始終是非降的, 右連續的, 且limxF(x)=1

2、概率密度函式(PDF-Probability Density Function)

離散隨機變數的密度函式為:

fX(x)=P(X=x)
對於連續隨機變數,若存在一個函式fX對所有的x均滿足fX(x)0abfX(x)dx=1,並且有
P(a<X<b)=abfX(x)dx
fX就是FX(x)的密度函式,並且FX(x)=xfX(t)dtfX(x)=ddxFX(x),這是一個很重要的概念,後面所謂的密度估計(density estimation)(EM algorithm和Sampling Methods)都是要估計出一個概率密度函式來。

3、伯努利分佈,二項分佈

  • 伯努利分佈就是對單次拋硬幣的建模,X~Bernoulli(p)的密度函式是f(x)=px(1p)1x,隨機變數只能取{0,1}。對於所有的密度函式都要歸一化!而伯努利分佈天然是歸一化。因此歸一化引數就是1.

  • 多次伯努利實驗即為二項分佈,其密度函式為

    f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1p)nx
    這裡Cxn可以看作是二項分佈的歸一化引數。

4、β分佈

概率密度函式

f(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1
其中Γ(x)=0tx1etdt通過分部積分法,可推匯出這個函式有如下遞迴性質Γ(x+1)=xΓ(x)Γ(x)函式可以看作是階乘在實數集上的延拓,具有如下性質Γ(n)=(n1)!

5、多項分佈

把二項分佈再推廣,就得到多項分佈。二項分佈的典型例子是扔硬幣,硬幣正面向上的概率為p,重複扔n次硬幣,k次為下面的概率即為一個二項分佈。二項分佈即為多重伯努利實驗。
不同於扔硬幣,多項分佈類似於扔骰子。假設螢火蟲對食物的喜歡程式,我們給三種選擇:花粉,蚜蟲,麵糰。假設20%的螢火蟲喜歡花粉,35%的螢火蟲喜歡蚜蟲,45%的螢火蟲喜歡麵糰。我們對30只螢火蟲做實驗,發現8只喜歡花粉,10只喜歡蚜蟲,12只喜歡麵糰,這件事的概率為

P(N1=8,N2=10,N3=12)=30!8!10!12!0.28