1. 程式人生 > >似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

文章目錄

似然函式與最大似然估計

似然的概念

“似然”用通俗的話來說就是可能性,極大似然就是最大的可能性。

似然函式

似然函式是關於統計模型中的一組概率的函式(這些概率的真實值我們並不知道),似然函式的因變數值表示了模型中的概率引數的似然性(可能性)。

最大似然估計

我們列出似然函式後,從真實事件中取得一批n個取樣樣本資料,最大似然估計會尋找基於我們的n個值的取樣資料得到的關於的最可能的值(即,在所有可能的取值中,尋找一個值使這n個值的取樣資料的“可能性”最大化)。

最大似然估計中取樣需滿足一個很重要的假設,就是所有的取樣都是獨立同分布的。

伯努利分佈

伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈,介紹伯努利分佈前首先需要引入伯努利試驗(Bernoulli trial)。

伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言:

P

( X = 1 ) = p P ( X = 1 ) = p
P
( X = 0 ) = 1 p P ( X = 0 ) = 1 - p

伯努利試驗可以表達為“是或否”的問題。

如果試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。

進行一次伯努利試驗,成功(X=1)概率為p(0<=p<=1),失敗(X=0)概率為1-p,則稱隨機變數X服從伯努利分佈。

其概率質量函式為:

f ( x ) = p x ( 1 p ) 1 x = { p  if  x = 1 1 p  if  x = 0 0  otherwise  f ( x ) = p ^ { x } ( 1 - p ) ^ { 1 - x } = \left\{ \begin{array} { l l } { p } &amp; { \text { if } x = 1 } \\ { 1 - p } &amp; { \text { if } x = 0 } \\ { 0 } &amp; { \text { otherwise } } \end{array} \right.

伯努利分佈的 E X = p , D X = p ( 1 p ) EX = p , DX = p ( 1 - p ) 。伯努利分佈是一個離散型機率分佈,是N=1時二項分佈的特殊情況。

伯努利分佈下的最大似然估計

假設 P ( X = 1 ) = p , P ( X = 0 ) = 1 p P ( X = 1 ) = p , P ( X = 0 ) = 1 - p ,則有

P ( X ) = p X ( 1 p ) 1 X P ( X ) = p ^ { X } ( 1 - p ) ^ { 1 - X }

假設我們現在有一組取樣得到的資料D,則其對數似然函式為

max p log P ( D ) = max p log i N P ( D i ) = max p i log P ( D i ) = max p i [ D i log p + ( 1 D i ) log ( 1 p ) ] \begin{aligned} \max _ { p } \log P ( D ) &amp; = \max _ { p } \log \prod _ { i } ^ { N } P \left( D _ { i } \right) \\ &amp; = \max _ { p } \sum _ { i } \log P \left( D _ { i } \right) \\ &amp; = \max _ { p } \sum _ { i } \left[ D _ { i } \log p + \left( 1 - D _ { i } \right) \log ( 1 - p ) \right] \end{aligned}

現在我們來求其極大似然估計,即求對數似然函式取極大值時函式的自變數的取值。

將上式對P求導可得:

p max p log P ( D ) = i N [ D i 1 p + ( 1 D i ) 1 p 1 ] \nabla _ { p } \max _ { p } \log P ( D ) = \sum _ { i } ^ { N } \left[ D _ { i } \frac { 1 } { p } + \left( 1 - D _ { i } \right) \frac { 1 } { p - 1 } \right]

令導數為0,則有:

i N [ D i 1 p + ( 1 D i ) 1 p 1 ] = 0 \sum _ { i } ^ { N } \left[ D _ { i } \frac { 1 } { p } + \left( 1 - D _ { i } \right) \frac { 1 } { p - 1 } \right] = 0

消去分母,得:

\sum _ { i } ^ { N } \left[ D _ { i } ( p - 1 ) + \left( 1 - D _ { i } \right) p \right] = 0

於是可得:

i N ( p D i ) = 0 \sum _ { i } ^ { N } \left( p - D _ { i } \right) = 0

p = 1 N i D i p = \frac { 1 } { N } \sum _ { i } D _ { i }