似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式
文章目錄
似然函式與最大似然估計
似然的概念
“似然”用通俗的話來說就是可能性,極大似然就是最大的可能性。
似然函式
似然函式是關於統計模型中的一組概率的函式(這些概率的真實值我們並不知道),似然函式的因變數值表示了模型中的概率引數的似然性(可能性)。
最大似然估計
我們列出似然函式後,從真實事件中取得一批n個取樣樣本資料,最大似然估計會尋找基於我們的n個值的取樣資料得到的關於的最可能的值(即,在所有可能的取值中,尋找一個值使這n個值的取樣資料的“可能性”最大化)。
最大似然估計中取樣需滿足一個很重要的假設,就是所有的取樣都是獨立同分布的。
伯努利分佈
伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈,介紹伯努利分佈前首先需要引入伯努利試驗(Bernoulli trial)。
伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言:
伯努利試驗可以表達為“是或否”的問題。
如果試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。
進行一次伯努利試驗,成功(X=1)概率為p(0<=p<=1),失敗(X=0)概率為1-p,則稱隨機變數X服從伯努利分佈。
其概率質量函式為:
伯努利分佈的 。伯努利分佈是一個離散型機率分佈,是N=1時二項分佈的特殊情況。
伯努利分佈下的最大似然估計
假設 ,則有
假設我們現在有一組取樣得到的資料D,則其對數似然函式為
現在我們來求其極大似然估計,即求對數似然函式取極大值時函式的自變數的取值。
將上式對P求導可得:
令導數為0,則有:
消去分母,得:
\sum _ { i } ^ { N } \left[ D _ { i } ( p - 1 ) + \left( 1 - D _ { i } \right) p \right] = 0
於是可得: