理解最大似然估計
在統計學中,最大似然估計,也稱為最大概似估計,是用來估計一個概率模型的引數的一種方法。
預備知識
下邊的討論要求讀者熟悉概率論中的基本定義,如概率分佈、概率密度函式、隨機變數、數學期望等。同時,還要求讀者熟悉連續實函式的基本技巧,比如使用微分來求一個函式的極值(即極大值或極小值)。
最大似然估計的原理
給定一個概率分佈,已知其概率密度函式(連續分佈)或概率質量函式(離散分佈)為,以及一個分佈引數,我們可以從這個分佈中抽出一個具有個值的取樣,利用計算出其概率:
但是,我們可能不知道的值,儘管我們知道這些取樣資料來自於分佈
一旦我們獲得,我們就能求得一個關於的估計。最大似然估計會尋找關於的最可能的值(即,在所有可能的取值中,尋找一個值使這個取樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的值。
要在數學上實現最大似然估計法,我們首先要定義似然函式:
並且在的所有取值上通過令一階導數等於零,使這個函式取到最大值。這個使可能性最大的
注意
這裡的似然函式是指不變時,關於的一個函式。
最大似然估計函式不一定是惟一的,甚至不一定存在。
例子
離散分佈,離散有限引數空間
考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個取樣並把正面的次數記下來,正面記為H,反面記為T)。並把丟擲一個正面的概率記為,丟擲一個反面的概率記為(因此,這裡的即相當於上邊的)。假設我們丟擲了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣丟擲正面的概率分別為, , .這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用 最大似然估計,通過這些試驗資料(即取樣資料),我們可以計算出哪個硬幣的可能性最大。這個似然函式取以下三個值中的一個:
我們可以看到當時,似然函式取得最大值。這就是的最大似然估計。
離散分佈,連續引數空間
現在假設例子1中的盒子中有無數個硬幣,對於中的任何一個, 都有一個丟擲正面概率為的硬幣對應,我們來求其似然函式的最大值:
其中. 我們可以使用微分法來求最值。方程兩邊同時對取微分,並使其為零。
其解為, ,以及.使可能性最大的解顯然是(因為和這兩個解會使可能性為零)。因此我們說最大似然估計值為.
這個結果很容易一般化。只需要用一個字母代替49用以表達伯努利試驗中的被觀察資料(即樣本)的“成功”次數,用另一個字母代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:
對於任何成功次數為,試驗總數為的伯努利試驗。
連續分佈,連續引數空間
最常見的連續概率分佈是正態分佈,其概率密度函式如下:
現在有個正態隨機變數的取樣點,要求的是一個這樣的正態分佈,這些取樣點分佈到這個正態分佈可能性最大(也就是概率密度積最大,每個點更靠近中心點),其個正態隨機變數的取樣的對應密度函式(假設其獨立並服從同一分佈)為:
或:
- ,
這個分佈有兩個引數:.有人可能會擔心兩個引數與上邊的討論的例子不同,上邊的例子都只是在一個引數上對可能性進行最大化。實際上,在兩個引數上的求最大值的方法也差不多:只需要分別把可能性在兩個引數上最大化即可。當然這比一個引數麻煩一些,但是一點也不復雜。使用上邊例子同樣的符號,我們有.
最大化一個似然函式同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函式的值域內嚴格遞增的上凸函式。[注意:可能性函式(似然函式)的自然對數跟資訊熵以及Fisher資訊聯絡緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:
這個方程的解是.這的確是這個函式的最大值,因為它是裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。
同理,我們對求導,並使其為零。
這個方程的解是.
因此,其關於的最大似然估計為:
- .