極大似然估計的樸素理解

阿新 • • 發佈：2019-01-20

轉自：http://www.zhizhihu.com/html/y2010/1520.html

最大似然法,英文名稱是Maximum Likelihood Method，在統計中應用很廣。這個方法的思想最早由高斯提出來，後來由菲舍加以推廣並命名。

最大似然法是要解決這樣一個問題：給定一組資料和一個引數待定的模型，如何確定模型的引數，使得這個確定引數後的模型在所有模型中產生已知資料的概率最大。通俗一點講，就是在什麼情況下最有可能發生已知的事件。舉個例子，假如有一個罐子，裡面有黑白兩種顏色的球，數目多少不知，兩種顏色的比例也不知。我們想知道罐中白球和黑球的比例，但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來，記錄球的顏色，然後把拿出來的球再放回罐中。這個過程可以重複，我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中，有七十次是白球，請問罐中白球所佔的比例最有可能是多少？

我想很多人立馬有答案：70%。這個答案是正確的。可是為什麼呢？（常識嘛！這還要問？！）其實，在很多常識的背後，都有相應的理論支援。在上面的問題中，就有最大似然法的支援。

在很久以前的一個下午，自己在圖書館看書，書中講到了同一獨立分佈（i.i.d., identical and independent distribution），與概率相關。當時已經聽說最大似然法很長時間了，最大似然法在不同場合應用的結論看過不少，但自己還沒有真正地學習和應用過。突然想到了上面的例子（類似的例子在自己以後的閱讀很常見，當時沒有意識到自己到底以前看過類似的例子沒有），決定自己動手算一算。

下面會有一些數學，我知道西河比較深，大牛比較多，看了不要見笑。有意見和建議儘管提。

我們假設罐中白球的比例是p，那麼黑球的比例就是1-p。因為每抽一個球出來，在記錄顏色之後，我們把抽出的球放回了罐中並搖勻，所以每次抽出來的球的顏色服從同一獨立分佈。這裡我們把一次抽出來球的顏色稱為一次抽樣。題目中在一百次抽樣中，七十次是白球的概率是P(Data | M)，這裡Data是所有的資料，M是所給出的模型，表示每次抽出來的球是白色的概率為p。如果第一抽樣的結果記為x1，第二抽樣的結果記為x2，。。。那麼Data = (x1,x2,...,x100)。這樣，
P(Data | M)
= P(x1,x2,...,x100|M)
= P(x1|M)P(x2|M)...P(x100|M)
= p^70(1-p)^30.
那麼p在取什麼值的時候，P(Data |M)的值最大呢？將p^70(1-p)^30對p求導，並其等於零。
70p^69(1-p)^30-p^70*30(1-p)^29=0。
解方程可以得到p=0.7。
在邊界點p=0,1，P(Data|M)=0。所以當p=0.7時，P(Data|M)的值最大。這和我們常識中按抽樣中的比例來計算的結果是一樣的。

當時，自己推到完這些，心情很高興，感覺自己理解了最大似然法。接著想到了連續變數。

假如我們有一組連續變數的取樣值（x1,x2,...,xn），我們知道這組資料服從正態分佈，標準差已知。請問這個正態分佈的期望值為多少時，產生這個已有資料的概率最大？
P(Data | M) = ??

求導，u=(x1+x2+...+xn)/n.這個正態分佈的期望值，就是這組資料的均值。在我們的日常生活和工作中，我們經常會用到平均值，這是有道理的，可以用最大似然法來解釋。如果資料服從正態分佈，這是最可能的資料。

當我第一次自己推匯出這些的時候，心中有一種豁然開朗、恍然大悟的感覺：最大似然法就這樣！

最大似然法原理簡單，應用很廣。舉個例子，這樣的情況在生活會經常遇到。假如人們會感染一種病毒，有一種測試方法，在被測試者已感染這個病毒時，測試結果為陽性的概率為95%。在被測試者沒有感染這個病毒時，測試結果為陽性的概率為2%。現在，有一個人的測試結果為陽性，問這個人感染了病毒嗎？根據最大似然法，如果一個人感染病毒，95%的測試結果會為陽性；而如果這個人沒有感染病毒，只有2%的測試結果會為陽性，所以這個人應該是已經感染病毒了。

最大似然法應用廣泛，但是經常會受到一種批評，而且對於這種批評，尤其在資料量比較小的時候，最大似然法的支持者沒有很多充分的反駁理由：在最大似然法中，只考慮了由一個模型產生一個已知資料的概率，而沒有考慮模型本身的概率。相對應的考慮了模型本身概率的方法，是貝葉斯方法（Bayesian method)。

在上面測試病毒的例子中，如果我們知道在整體人群中，只有1%人會感染這種病毒，那麼，根據貝葉斯方法，這個被測試者只有1/3左右的可能性感染了病毒 {1%*95%/(1%*95%+99%*2%)=32.4%}
在這裡，我們看到先驗概率對結果的影響很大。

不過，當資料量比較大的時候，先驗概率的影響就會減小。比如，人們在被檢測出感染了一個嚴重的病毒後，一般會去其他醫院複查。假如同一個人在三家醫院進行了獨立的檢查，結果都是陽性。那麼，這個人真正感染了病毒的概率有多大？在這個人感染病毒時，出現這種檢測結果的可能性為95%*95%*95% = 85.7%；而在這個人沒有感染病毒時，出現這種檢測結果的可能性為2%*2%*2% = 0.000008。根據最大似然法，我們應選擇這個人感染了病毒。

根據貝葉斯方法，這個人感染病毒的概率為1%*95%*95%*95%/(1%*95%*95%*95%+99%*2%*2%*2%) = 99.9%。

當然，當時自己主要體會了同一獨立分佈在最大似然法中的要求。在以後的一個應用中，才對“模型已知，引數未定”這一要求有了進一步的認識。

極大似然估計的樸素理解

極大似然估計的理解與應用

對極大似然估計的理解

極大似然估計的樸素理解

極大似然估計法推出樸素貝葉斯法中的先驗概率估計公式如何理解

極大似然估計與貝葉斯的理解

極大似然估計法的理解

極大似然估計的個人理解

機器學習學習筆記之二——大數定律、中心極限定理以及極大似然估計理解與用法

對極大似然估計、梯度下降、線性迴歸、邏輯迴歸的理解

簡單理解極大似然估計MLE

極大似然估計是經驗風險最小化的理解（統計學習方法）

理解極大似然估計(MLE)

統計學習方法第四章極大似然估計的樸素貝葉斯分類方法例題4.1程式碼實踐

從極大似然估計的角度理解深度學習中loss函式

極大似然估計

極大似然估計與貝葉斯定理

極大似然估計和EM算法

極大似然估計思想的最簡單解釋

【R語言-20行程式碼】牛頓迭代法求伽馬函式極大似然估計法的引數估計

轉載　極大似然估計

極大似然估計的樸素理解

相關推薦