Estimating from data
阿新 • • 發佈:2018-12-18
兩種引數估計的統計學方法
今天主要複習一下兩種引數估計的統計學方法,分別是極大似然估計(MLE)和最大後驗概率估計(MAP)。
- 問題背景
- MLE
- MAP
- MLE 與 MAP各自的優缺點
- MLE與MAP之間的區別與聯絡
問題背景
以擲硬幣為例。現在我們一共拋擲了10次硬幣,其結果為{H,T,T,T,H,H,H,H,H,H}。我們假設硬幣朝上的概率為,現在問題來了?如何從我們的觀測資料當中近似得到的估計值呢? 對於上述問題,我們可以從兩個角度出發進行思考,一是從頻率學派的角度,二是從貝葉斯學派的角度。
MLE
使用極大似然估計的方法得到的近似值主要分為以下兩個步驟:
- 先根據資料集對資料分佈做出假設(或者構建模型)。以擲硬幣為例,一種很自然的想法即為:假設擲硬幣朝上的概率滿足二項分佈。對於引數為的二項分佈,我們知道其分佈列為具體到擲硬幣來說,我們可以得到 其中表示硬幣朝上的次數,表示硬幣朝下的次數,表示硬幣朝上的概率。
- 確定模型引數,使得我們所觀測到的資料儘可能具有代表性(make our data more likely to be observed in real world),也即:,上述問題的求解過程如下: 對於上述表示式求導: 這樣一來,我們就得到了關於引數的估計。 仔細一看的值,我們不難發現,其恰好為我們平時說的頻率。也就是說,於擲硬幣這個例子而言,極大似然估計最終以頻率來估計硬幣朝上的概率。
MAP
以擲硬幣實驗中硬幣朝上事件發生的頻率來估計硬幣朝上的概率,這似乎是一種很自然的做法。下面我們來考慮另外一種極端情況:同樣是拋10次硬幣,結果為{H,H,H,H,H,H,H,H,H,H}。此時我們使用MLE來估計引數的值,就會得到.這樣的結果你覺得可靠嗎?至少我覺得是不可靠的。因為憑我的直覺,我認為硬幣朝上的概率和硬幣朝下的概率是五五開的。 於是,貝葉斯學派認為,純粹使用頻率來估計概率是不行的。他們認為引數是一個隨機變數,在估計硬幣朝上的概率的時候,還應當引入先驗知識,將也即本身服從的概率分佈也考慮進來。 所以MAP要解決的是一個什麼樣的問題呢? 簡而言之,MAP就是要通過我們現有的觀測資料去尋找最有可能的,即: 回顧一下貝葉斯公式: 在上面表示式當中,各個引數代表的含義如下:
- :對於分母這一項,如果是一個連續性隨機變數的話,我們可以寫成,如果是一個離散型隨機變數我們可以寫成,。不論是何種情況,的取值都不會影響我們求解最佳的引數。
- :這一項恰好就是我們先前在MLE中要最大化的量,也即在給定引數的前提下,我們所觀測到的資料在真實情況下出現的可能性。
- :引數的先驗概率。
- :基於觀測資料,我們對於引數所滿足的先驗概率的矯正。
下面我們就逐一分析分子中的各項:
-
通常情況下,對於擲硬幣這個例子而言,我們可以假設服從Beta分佈,即 在上面的表示式當中,分母。 為什麼我們使用Beta分佈來模擬硬幣朝上的概率所滿足的分佈呢?原因主要有以下兩點:
- 其與二項分佈是共軛先驗的(Conjugate_prior)。所謂共軛先驗就是先驗分佈是beta分佈,而後驗分佈同樣是beta分佈。