文章目錄

似然函式與最大似然估計

似然的概念
似然函式
最大似然估計
伯努利分佈
伯努利分佈下的最大似然估計
高斯分佈
高斯分佈下的最大似然估計

資訊量、熵、相對熵、交叉熵、機器學習中的交叉熵函式

資訊量
熵
相對熵（KL散度）
交叉熵
機器學習中的交叉熵函式

似然函式與最大似然估計

似然的概念

“似然”用通俗的話來說就是可能性，極大似然就是最大的可能性。

似然函式

似然函式是關於統計模型中的一組概率的函式(這些概率的真實值我們並不知道)，似然函式的因變數值表示了模型中的概率引數的似然性(可能性)。

最大似然估計

我們列出似然函式後，從真實事件中取得一批n個取樣樣本資料，最大似然估計會尋找基於我們的n個值的取樣資料得到的關於的最可能的值（即，在所有可能的取值中，尋找一個值使這n個值的取樣資料的“可能性”最大化）。

最大似然估計中取樣需滿足一個很重要的假設，就是所有的取樣都是獨立同分布的。

伯努利分佈

伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈，介紹伯努利分佈前首先需要引入伯努利試驗（Bernoulli trial）。

伯努利試驗是隻有兩種可能結果的單次隨機試驗，即對於一個隨機變數X而言：

$P$

( X = 1 ) = p P ( X = 1 ) = p

P (X = 1) = p

P ( X = 0 ) = 1 - p

伯努利試驗可以表達為“是或否”的問題。

如果試驗E是一個伯努利試驗，將E獨立重複地進行n次，則稱這一串重複的獨立試驗為n重伯努利試驗。

進行一次伯努利試驗，成功(X=1)概率為p(0<=p<=1)，失敗(X=0)概率為1-p，則稱隨機變數X服從伯努利分佈。

其概率質量函式為：

$f ( x ) = p ^ { x } ( 1 - p ) ^ { 1 - x } = \left\{ \begin{array} { l l } { p } & { \text { if } x = 1 } \\ { 1 - p } & { \text { if } x = 0 } \\ { 0 } & { \text { otherwise } } \end{array} \right.$

伯努利分佈的 $EX = p , DX = p ( 1 - p )$ 。伯努利分佈是一個離散型機率分佈，是N=1時二項分佈的特殊情況。

伯努利分佈下的最大似然估計

假設 $P ( X = 1 ) = p , P ( X = 0 ) = 1 - p$ ，則有

$P ( X ) = p ^ { X } ( 1 - p ) ^ { 1 - X }$

假設我們現在有一組取樣得到的資料D，則其對數似然函式為

$\begin{aligned} \max _ { p } \log P ( D ) & = \max _ { p } \log \prod _ { i } ^ { N } P \left( D _ { i } \right) \\ & = \max _ { p } \sum _ { i } \log P \left( D _ { i } \right) \\ & = \max _ { p } \sum _ { i } \left[ D _ { i } \log p + \left( 1 - D _ { i } \right) \log ( 1 - p ) \right] \end{aligned}$

現在我們來求其極大似然估計，即求對數似然函式取極大值時函式的自變數的取值。

將上式對P求導可得：

$\nabla _ { p } \max _ { p } \log P ( D ) = \sum _ { i } ^ { N } \left[ D _ { i } \frac { 1 } { p } + \left( 1 - D _ { i } \right) \frac { 1 } { p - 1 } \right]$

令導數為0，則有：

$\sum _ { i } ^ { N } \left[ D _ { i } \frac { 1 } { p } + \left( 1 - D _ { i } \right) \frac { 1 } { p - 1 } \right] = 0$

消去分母，得：

\sum _ { i } ^ { N } \left[ D _ { i } ( p - 1 ) + \left( 1 - D _ { i } \right) p \right] = 0

於是可得：

$\sum _ { i } ^ { N } \left( p - D _ { i } \right) = 0$

$p = \frac { 1 } { N } \sum _ { i } D _ { i }$

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

文章目錄

似然函式與最大似然估計

似然的概念

似然函式

最大似然估計

伯努利分佈

伯努利分佈下的最大似然估計

似然函式和最大似然估計與機器學習中的交叉熵函式之間的關係

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

邏輯迴歸損失函式與最大似然估計

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

(常用演算法2)矩估計與最大似然估計

似然函式，最大似然估計簡單理解

貝葉斯思想以及與最大似然估計、最大後驗估計的區別

機器學習中的核函式與核方法（是什麼？為什麼？怎麼做？）

機器學習中常用損失函式

機器學習中Logistic損失函式以及神經網路損失函式詳解

關於機器學習中的損失函式loss function

機器學習中的損失函式總結

機器學習中的損失函式

淺析機器學習中各種損失函式及其含義

機器學習中的代價函式

機器學習中的Softmax函式

機器學習中的目標函式總結

最大似然估計與最小二乘

最大似然損失和交叉熵損失函式的聯絡

【模式識別與機器學習】——最大似然估計（MLE）最大後驗概率（MAP）

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

文章目錄

似然函式與最大似然估計

似然的概念

似然函式

最大似然估計

伯努利分佈

伯努利分佈下的最大似然估計

相關推薦