概率分佈(多項分佈,Dirichlet分佈)
在機器學習領域中,概率模型是一個常用的利器。用它來對問題進行建模,有幾點好處:1)當給定引數分佈的假設空間後,可以通過很嚴格的數學推導,得到模型的似然分佈,這樣模型有很好的概率解釋;2)可以利用現有的EM演算法或者Variational method來學習。通常為了方便推導引數的後驗分佈,會假設引數的先驗分佈是似然的某個共軛分佈,這樣後驗分佈和先驗分佈具有相同的形式,這可以大大簡化建模過程中的數學推導,保證最後的形式是tractable。
在概率模型中,Dirichlet這個詞出現的頻率非常的高。初學機器學習的同學,在學習概率模型的時候,很多同學都不清楚為啥一個表現形式如此奇怪的分佈Dirichlet分佈會出現在我們的教科書中,它是靠啥關係攀上了多項分佈(Multinomial distribution)這個親戚的,以至於它可以“堂而皇之”地扼殺我大天朝這麼多數學家和科學家夢想的?為了引出背後這層關係,我們需要先介紹一個概念——共軛先驗(Conjugate Prior)。
- 在貝葉斯統計理論中,如果某個隨機變數Θ的後驗概率 p(θ|x)和其先驗概率p(θ)屬於同一個分佈簇的,那麼稱p(θ|x)和p(θ)為共軛分佈,同時,也稱p(θ)為似然函式p(x|θ)的共軛先驗。
- 事情還沒有發生,要求這件事情發生的可能性的大小,是先驗概率。事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小,是後驗概率。
1、累積分佈函式(分佈函式)(CDF-Cumulative Distribution Function)
分佈函式的定義為
假設
這裡需要注意兩點
- 函式是右連續的
FX(1.4)=34 , 這裡P(1≤X<2)=12
因此F函式始終是非降的, 右連續的, 且
2、概率密度函式(PDF-Probability Density Function)
離散隨機變數的密度函式為:
對於連續隨機變數,若存在一個函式
則
3、伯努利分佈,二項分佈
伯努利分佈就是對單次拋硬幣的建模,X~Bernoulli(p)的密度函式是
f(x)=px(1−p)1−x ,隨機變數只能取{0,1}。對於所有的密度函式都要歸一化!而伯努利分佈天然是歸一化。因此歸一化引數就是1.多次伯努利實驗即為二項分佈,其密度函式為
f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1−p)n−x
這裡Cxn 可以看作是二項分佈的歸一化引數。
4、β 分佈
概率密度函式
其中
5、多項分佈
把二項分佈再推廣,就得到多項分佈。二項分佈的典型例子是扔硬幣,硬幣正面向上的概率為p,重複扔n次硬幣,k次為下面的概率即為一個二項分佈。二項分佈即為多重伯努利實驗。
不同於扔硬幣,多項分佈類似於扔骰子。假設螢火蟲對食物的喜歡程式,我們給三種選擇:花粉,蚜蟲,麵糰。假設20%的螢火蟲喜歡花粉,35%的螢火蟲喜歡蚜蟲,45%的螢火蟲喜歡麵糰。我們對30只螢火蟲做實驗,發現8只喜歡花粉,10只喜歡蚜蟲,12只喜歡麵糰,這件事的概率為