極大似然估計和最大後驗概率估計

阿新 • • 發佈：2022-04-12

一、頻率學派和貝葉斯派

1. 頻率學派

他們認為世界是確定的。他們直接為事件本身建模，也就是說事件在多次重複實驗中趨於一個穩定的值p，這個值就是該事件的概率。
使用的引數估計方法-極大似然估計（MLE）
特點：這種方法往往在大資料量的情況下可以很好的還原模型的真實情況。

2. 貝葉斯學派

他們認為世界是不確定的，因獲取的資訊不同而異。假設對世界先有一個預先的估計，然後通過獲取的資訊來不斷調整之前的預估計。
引數估計方法-最大後驗概率估計(MAP)
特點：在先驗假設比較靠譜的情況下效果顯著，隨著資料量的增加，先驗假設對於模型引數的主導作用會逐漸削弱，相反真實的資料樣例會大大佔據有利地位。

二、極大似然估計與最大後驗概率估計

我們這有一個任務，就是根據已知的一堆資料樣本，來推測產生該資料的模型的引數，即已知資料，推測模型和引數。因此根據兩大派別的不同，對於模型的引數估計方法也有兩類：極大似然估計與最大後驗概率估計。

1. 極大似然估計

似然，可以簡單理解為概率、可能性，也就是說要最大化該事件發生的可能性
含義：根據已知樣本，希望通過調整模型引數來使得模型能夠最大化樣本情況出現的概率

注：最後這一行所優化的函式被稱為Negative Log Likelihood (NLL)-負對數似然

舉一個小例子

假如一個盒子裡面有紅黑共10個球，每次有放回的取出，取了10次，結果為7次黑球，3次紅球。問拿出黑球的概率 \(p\) 是多少？

我們假設7次黑球，3次紅球為事件A，一個理所當然的想法就是既然事件A已經發生了，那麼事件A發生的概率應該最大。

\[P(A) = p^7*(1-p)^3 \]

接下來，就是取對數，轉化為累加，然後令導數為0，求得極值。p=0.7

2. 最大後驗概率估計

含義：最大化在給定資料樣本的情況下模型引數的後驗概率
根據已知樣本，來通過調整模型引數使得模型能夠產生該資料樣本的概率最大，只不過對於模型引數有了一個先驗假設，
即模型引數可能滿足某種分佈，不再一味地依賴資料樣例（萬一資料量少或者資料不靠譜呢）。

拋硬幣的例子

拋一枚硬幣10次，有10次正面朝上，0次反面朝上。問正面朝上的概率 \(\theta\)

頻率學派：MLE求得\(\theta = 1.0\), 顯然缺乏資料，MLE會產生很大的偏差。
貝葉斯派：先驗認為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分佈)，那麼\(P(\theta|X)\)是一個分佈，最大值位於0.5~1之間。
顯然，隨著資料量的增加，引數分佈會更傾向於向資料靠攏，先驗假設的影響會越來越小。

極大似然估計和最大後驗概率估計

一、頻率學派和貝葉斯派

1. 頻率學派

2. 貝葉斯學派

二、極大似然估計與最大後驗概率估計

1. 極大似然估計

舉一個小例子

2. 最大後驗概率估計

拋硬幣的例子

參考

極大似然估計和最大後驗概率估計

極大似然估計和最大後驗估計的關係（機器學習視角）

【模式識別、樸素貝葉斯方法】最大似然估計（MLE）、最大後驗概率估計（MAP）

說人話搞懂【極大似然估計】和【最大後驗概率】的區別！

說人話搞懂【極大似然估計】和【最大後驗概率】的區別

ORBSLAM3的最大後驗概率公式推導

極大似然估計

Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵

最小生成樹和最大生成樹

求最小數 * 區間和最大值

二叉樹中最大搜索子樹和最大搜索子結構

Python學習（4）序列：索引、切片、序列相加、乘法（Multiplying）、檢查某個元素是否是序列的成員（元素）、計算序列的長度和最大最小值

【JavaScript練習】封裝自己的Math物件，包括PI值和最大值最小值

一維動態規劃-連續子序列和最大值

HDU 1081 求子矩陣和最大值

redis6.x服務端配置config命令介紹和最大記憶體配置

【K8s任務】配置名稱空間的最小和最大記憶體約束

【K8s任務】為名稱空間配置 CPU 最小和最大約束

世界首富馬斯克：我最大恐懼和最大的願望

概率貝葉斯公式先驗概率後驗概率

極大似然估計和最大後驗概率估計

一、頻率學派和貝葉斯派

1. 頻率學派

2. 貝葉斯學派

二、極大似然估計與最大後驗概率估計

1. 極大似然估計

舉一個小例子

2. 最大後驗概率估計

拋硬幣的例子

參考

相關推薦