1. 程式人生 > >PRML:二元變數分佈

PRML:二元變數分佈

伯努利分佈

考慮二元隨機變數 x{0,1}(拋硬幣,正面為 1,反面為 0),其概率分佈由引數 μ 決定:

p(x=1)=μ

其中 (0μ1),並且有 p(x=0)=1μ。這就是伯努利分佈(Bernoulli distribution),其概率分佈可以寫成:

Bern(x|μ)=μx(1μ)1x

均值和方差為:

E[x]var[x]=μ=μ(1μ)

伯努利分佈的最大似然估計

考慮一組 x 的觀測資料 D={x1,,xN},在獨立同分布的假設下,其似然函式為

p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn

對數似然為

ln
p(D|μ)=n=1Nlnp(xn|μ)=n=1N{xnlnμ+(1xn)ln(1μ)}

對數似然值只依賴於 Nn=1xn 的取值,而事實上 Nn=1xi 就是伯努利分佈的一個充分統計量,它可以提供引數 μ 的全部資訊。

μ 最大化對數似然,我們很容易得到

μML=1Nn=1Nxn

即最大似然估計值為樣本均值(sample mean),若樣本中 x=1 的數目為 m 則:

μML=mN

考慮拋三次硬幣出現了三次正面的情況,此時 N=m=3,μML=1。在這種情況下,最大似然估計會得到每次都是正面的結果,這顯然違背了我們的正常認知。事實上,這是一種過擬合的典型表現。

為了解決這個問題,我們可以考慮引入先驗知識。

二項分佈

給定資料總數 Nx=1 的總次數 m 滿足一定的分佈,這個分佈叫做二項分佈(binomial distribution)。

從伯努利分佈的似然函式中可以看出它應該正比於 μm(1μ)Nm,事實上它可以寫成:

Bin(m|N,μ)=(Nm)μm(1μ)Nm

其中

(Nm)N!(Nm)!m!

是組合數。

驗證它是一個概率分佈,二項式定理給出:

m=0N(Nm)μm(1μ)Nm=(μ+1μ)N=