1. 程式人生 > 其它 >極大似然估計和最大後驗概率估計

極大似然估計和最大後驗概率估計

一、頻率學派和貝葉斯派

1. 頻率學派

他們認為世界是確定的。他們直接為事件本身建模,也就是說事件在多次重複實驗中趨於一個穩定的值p,這個值就是該事件的概率。
使用的引數估計方法-極大似然估計(MLE)
特點:這種方法往往在大資料量的情況下可以很好的還原模型的真實情況。

2. 貝葉斯學派

他們認為世界是不確定的,因獲取的資訊不同而異。假設對世界先有一個預先的估計,然後通過獲取的資訊來不斷調整之前的預估計。
引數估計方法-最大後驗概率估計(MAP)
特點:在先驗假設比較靠譜的情況下效果顯著,隨著資料量的增加,先驗假設對於模型引數的主導作用會逐漸削弱,相反真實的資料樣例會大大佔據有利地位。

二、極大似然估計與最大後驗概率估計

我們這有一個任務,就是根據已知的一堆資料樣本,來推測產生該資料的模型的引數,即已知資料,推測模型和引數。因此根據兩大派別的不同,對於模型的引數估計方法也有兩類:極大似然估計與最大後驗概率估計。

1. 極大似然估計

似然,可以簡單理解為概率、可能性,也就是說要最大化該事件發生的可能性
含義:根據已知樣本,希望通過調整模型引數來使得模型能夠最大化樣本情況出現的概率

注:最後這一行所優化的函式被稱為Negative Log Likelihood (NLL)-負對數似然

舉一個小例子

假如一個盒子裡面有紅黑共10個球,每次有放回的取出,取了10次,結果為7次黑球,3次紅球。問拿出黑球的概率 \(p\) 是多少?

  1. 我們假設7次黑球,3次紅球為事件A,一個理所當然的想法就是既然事件A已經發生了,那麼事件A發生的概率應該最大。
\[P(A) = p^7*(1-p)^3 \]
  1. 接下來,就是取對數,轉化為累加,然後令導數為0,求得極值。p=0.7

2. 最大後驗概率估計

含義:最大化在給定資料樣本的情況下模型引數的後驗概率
根據已知樣本,來通過調整模型引數使得模型能夠產生該資料樣本的概率最大,只不過對於模型引數有了一個先驗假設
即模型引數可能滿足某種分佈,不再一味地依賴資料樣例(萬一資料量少或者資料不靠譜呢)。

拋硬幣的例子

拋一枚硬幣10次,有10次正面朝上,0次反面朝上。問正面朝上的概率 \(\theta\)

  • 頻率學派:MLE求得\(\theta = 1.0\), 顯然缺乏資料,MLE會產生很大的偏差。
  • 貝葉斯派:先驗認為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分佈),那麼\(P(\theta|X)\)是一個分佈,最大值位於0.5~1之間。
  • 顯然,隨著資料量的增加,引數分佈會更傾向於向資料靠攏,先驗假設的影響會越來越小。

參考