似然函式基本概念

阿新 • • 發佈：2019-01-08

統計學中，似然函式是一種關於統計模型引數的函式。給定輸出x時，關於引數θ的似然函式L(θ|x)（在數值上）等於給定引數θ後變數X的概率： L(θ|x)=P(X=x|θ).

概率描述了已知引數時的隨機變數的輸出結果；似然則用來描述已知隨機變數輸出結果時，未知引數的可能取值。例如，對於“一枚正反對稱的硬幣上拋十次”這種事件，我們可以問硬幣落地時十次都是正面向上的“概率”是多少；而對於“一枚硬幣上拋十次，落地都是正面向上”這種事件，我們則可以問，這枚硬幣正反面對稱的“似然”程度是多少。

在數理統計學中，似然函式是一種關於統計模型中的引數的函式，表示模型引數中的似然性。似然函式在統計推斷中有重大作用，如在最大似然估計和費雪資訊之中的應用等等。“似然性”與“或然性”或“概率”意思相近，都是指某種事件發生的可能性，但是在統計學中，“似然性”和“或然性”或“概率”又有明確的區分。

概率用於在已知一些引數的情況下，預測接下來的觀測所得到的結果，而似然性則是用於在已知某些觀測所得到的結果時，對有關事物的性質的引數進行估計。

在這種意義上，似然函式可以理解為條件概率的逆反。在已知某個引數B時，事件A會發生的概率寫作：

$P(A\mid B)={\frac {P(A,B)}{P(B)}}\!$

利用貝葉斯定理，

$P(B\mid A)={\frac {P(A\mid B)\;P(B)}{P(A)}}\!$

因此，我們可以反過來構造表示似然性的方法：已知有事件A發生，運用似然函式 ${\mathbb {L}}(B\mid A)$ ，我們估計引數B的可能性。形式上，似然函式也是一種條件概率函式，但我們關注的變數改變了：

$b\mapsto P(A\mid B=b)\!$

注意到這裡並不要求似然函式滿足歸一性： $\sum _{{b\in {\mathcal {B}}}}P(A\mid B=b)=1$ 。一個似然函式乘以一個正的常數之後仍然是似然函式。對所有 $\alpha >0$ ，都可以有似然函式：

$L(b\mid A)=\alpha \;P(A\mid B=b)\!$

例子

兩次投擲都正面朝上時的似然函式

考慮投擲一枚硬幣的實驗。通常來說，已知投出的硬幣正面朝上和反面朝上的概率各自是 $p_{H}=0.5$

，便可以知道投擲若干次後出現各種結果的可能性。比如說，投兩次都是正面朝上的概率是0.25。用條件概率表示，就是：

$P({\mbox{HH}}\mid p_{H}=0.5)=0.5^{2}=0.25$

其中H表示正面朝上。

在統計學中，我們關心的是在已知一系列投擲的結果時，關於硬幣投擲時正面朝上的可能性的資訊。
我們可以建立一個統計模型：假設硬幣投出時會有 $p_{H}$ 的概率正面朝上，而有 $1-p_{H}$ 的概率反面朝上。
這時，條件概率可以改寫成似然函式：

$L(p_{H}=0.5\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=0.5)=0.25$

也就是說，對於取定的似然函式，在觀測到兩次投擲都是正面朝上時， $p_{H}=0.5$ 的似然性是0.25（這並不表示當觀測到兩次正面朝上時 $p_{H}=0.5$ 的概率是0.25）。

如果考慮 $p_{H}=0.6$ ，那麼似然函式的值也會改變。

$L(p_{H}=0.6\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=0.6)=0.36$

三次投擲中頭兩次正面朝上，第三次反面朝上時的似然函式

注意到似然函式的值變大了。
這說明，如果引數 $p_{H}$

的取值變成0.6的話，結果觀測到連續兩次正面朝上的概率要比假設 $p_{H}=0.5$ 時更大。也就是說，引數 $p_{H}$ 取成0.6 要比取成0.5 更有說服力，更為“合理”。總之，似然函式的重要性不是它的具體取值，而是當引數變化時函式到底變小還是變大。對同一個似然函式，如果存在一個引數值，使得它的函式值達到最大的話，那麼這個值就是最為“合理”的引數值。

在這個例子中，似然函式實際上等於：

$L(p_{H}=\theta \mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=\theta )=\theta ^{2}$ ，其中 $0\leq p_{H}\leq 1$ 。

如果取 $p_{H}=1$ ，那麼似然函式達到最大值1。也就是說，當連續觀測到兩次正面朝上時，假設硬幣投擲時正面朝上的概率為1是最合理的。

類似地，如果觀測到的是三次投擲硬幣，頭兩次正面朝上，第三次反面朝上，那麼似然函式將會是：

$L(p_{H}=\theta \mid {\mbox{HHT}})=P({\mbox{HHT}}\mid p_{H}=\theta )=\theta ^{2}(1-\theta )$ ，其中T表示反面朝上， $0\leq p_{H}\leq 1$ 。

這時候，似然函式的最大值將會在 $p_{H}={\frac {2}{3}}$ 的時候取到。也就是說，當觀測到三次投擲中前兩次正面朝上而後一次反面朝上時，估計硬幣投擲時正面朝上的概率 $p_{H}={\frac {2}{3}}$ 是最合理的。

應用

最大似然估計

最大似然估計是似然函式最初也是最自然的應用。上文已經提到，似然函式取得最大值表示相應的引數能夠使得統計模型最為合理。從這樣一個想法出發，最大似然估計的做法是：首先選取似然函式（一般是概率密度函式或概率質量函式），整理之後求最大值。實際應用中一般會取似然函式的對數作為求最大值的函式，這樣求出的最大值和直接求最大值得到的結果是相同的。似然函式的最大值不一定唯一，也不一定存在。與矩法估計比較，最大似然估計的精確度較高，資訊損失較少，但計算量較大。

似然比檢驗

似然比檢驗是利用似然函式來檢測某個假設（或限制）是否有效的一種檢驗。一般情況下，要檢測某個附加的引數限制是否是正確的，可以將加入附加限制條件的較複雜模型的似然函式最大值與之前的較簡單模型的似然函式最大值進行比較。如果引數限制是正確的，那麼加入這樣一個引數應當不會造成似然函式最大值的大幅變動。一般使用兩者的比例來進行比較，這個比值是卡方分配。

尼曼-皮爾森引理說明，似然比檢驗是所有具有同等顯著性差異的檢驗中最有統計效力的檢驗。

轉自：http://blog.csdn.net/yanqingan/article/details/6125812

最大似然估計學習總結------MadTurtle

1. 作用

在已知試驗結果（即是樣本）的情況下，用來估計滿足這些樣本分佈的引數，把可能性最大的那個引數作為真實的引數估計。

2. 離散型

設為離散型隨機變數，為多維引數向量，如果隨機變數相互獨立且概率計算式為P{，則可得概率函式為P{}=，在固定時，上式表示的概率；當已知的時候，它又變成的函式，可以把它記為，稱此函式為似然函式。似然函式值的大小意味著該樣本值出現的可能性的大小，既然已經得到了樣本值，那麼它出現的可能性應該是較大的，即似然函式的值也應該是比較大的，因而最大似然估計就是選擇使達到最大值的那個作為真實的估計。

3. 連續型

設為連續型隨機變數，其概率密度函式為，為從該總體中抽出的樣本，同樣的如果相互獨立且同分布，於是樣本的聯合概率密度為。大致過程同離散型一樣。

4. 關於概率密度(PDF)

我們來考慮個簡單的情況(m=k=1)，即是引數和樣本都為1的情況。假設進行一個實驗，實驗次數定為10次，每次實驗成功率為0.2，那麼不成功的概率為0.8，用y來表示成功的次數。由於前後的實驗是相互獨立的，所以可以計算得到成功的次數的概率密度為：

= 其中y

由於y的取值範圍已定，而且也為已知，所以圖1顯示了y取不同值時的概率分佈情況，而圖2顯示了當時的y值概率情況。

圖1 時概率分佈圖

圖2 時概率分佈圖

那麼在[0,1]之間變化而形成的概率密度函式的集合就形成了一個模型。

5. 最大似然估計的求法

由上面的介紹可以知道，對於圖1這種情況y=2是最有可能發生的事件。但是在現實中我們還會面臨另外一種情況：我們已經知道了一系列的觀察值和一個感興趣的模型，現在需要找出是哪個PDF（具體來說引數為多少時）產生出來的這些觀察值。要解決這個問題，就需要用到引數估計的方法，在最大似然估計法中，我們對調PDF中資料向量和引數向量的角色，於是可以得到似然函式的定義為：

該函式可以理解為，在給定了樣本值的情況下，關於引數向量取值情況的函式。還是以上面的簡單實驗情況為例，若此時給定y為7，那麼可以得到關於的似然函式為：

繼續回顧前面所講，圖1,2是在給定的情況下，樣本向量y取值概率的分佈情況；而圖3是圖1,2橫縱座標軸相交換而成，它所描述的似然函式圖則指出在給定樣本向量y的情況下，符合該取值樣本分佈的各種引數向量的可能性。若相比於，使得y=7出現的可能性要高，那麼理所當然的要比更加接近於真正的估計引數。所以求的極大似然估計就歸結為求似然函式的最大值點。那麼取何值時似然函式最大，這就需要用到高等數學中求導的概念，如果是多維引數向量那麼就是求偏導。

圖3 的似然函式分佈圖

主要注意的是多數情況下，直接對變數進行求導反而會使得計算式子更加的複雜，此時可以借用對數函式。由於對數函式是單調增函式，所以與具有相同的最大值點，而在許多情況下，求的最大值點比較簡單。於是，我們將求的最大值點改為求的最大值點。

若該似然函式的導數存在，那麼對關於引數向量的各個引數求導數（當前情況向量維數為1），並命其等於零，得到方程組：

可以求得時似然函式有極值，為了進一步判斷該點位最大值而不是最小值，可以繼續求二階導來判斷函式的凹凸性，如果的二階導為負數那麼即是最大值，這裡再不細說。

還要指出，若函式關於的導數不存在，我們就無法得到似然方程組，這時就必須用其它的方法來求最大似然估計值，例如用有界函式的增減性去求的最大值點

6. 總結

最大似然估計，只是一種概率論在統計學的應用，它是引數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分佈，但是其中具體的引數不清楚，引數估計就是通過若干次試驗，觀察其結果，利用結果推出引數的大概值。最大似然估計是建立在這樣的思想上：已知某個引數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個引數作為估計的真實值。

求最大似然函式估計值的一般步驟：
（1）寫出似然函式
（2）對似然函式取對數，並整理
（3）求導數
（4）解似然方程

對於最大似然估計方法的應用，需要結合特定的環境，因為它需要你提供樣本的已知模型進而來估算引數，例如在模式識別中，我們可以規定目標符合高斯模型。而且對於該演算法，我理解為，“知道”和“能用”就行，沒必要在程式設計時將該部分實現，因為在大多數程式中只會用到我最後推匯出來的結果。個人建議，如有問題望有經驗者指出。在文獻^[1]中講解了本文的相關理論內容，在文獻^[2]附有3個推導例子。

7. 參考文獻

[1]I.J. Myung. Tutorial on maximum likelihood estimation[J]. Journal of Mathematical Psychology, 2003, 90-100.

[2] http://edu6.teacher.com.cn/ttg006a/chap7/jiangjie/72.htm

似然函式基本概念

例子

應用

最大似然估計

似然比檢驗

似然函式基本概念

【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

似然函式

先驗概率、後驗概率、似然函式與機器學習中概率模型（如邏輯迴歸）的關係理解

似然函式和最大似然估計與機器學習中的交叉熵函式之間的關係

java建構函式基本概念

機器學習儲備（3）：似然函式例子解析

全面理解似然函式與貝葉斯公式

先驗概率、似然函式與後驗概率

先驗分佈，後驗分佈，似然函式

JavaScript函式基本概念

似然函式，最大似然估計簡單理解

似然函式（Likelihood function）是什麼

DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

似然函式Likelihood function

【機器學習】先驗概率、後驗概率、貝葉斯公式、似然函式

機器學習筆記：最大熵（模型，推導，與似然函式關係的推導，求解）

似然函式與概率密度函式的區別

【聯絡】二項分佈的對數似然函式與交叉熵（cross entropy）損失函式

似然函式基本概念

例子

應用

最大似然估計

似然比檢驗

相關推薦