貝葉斯估計、最大似然估計、最大後驗概率估計

Bayes' Theorem

文章作者：Tyan
部落格：noahsnail.com | CSDN | 簡書

1. 引言

貝葉斯估計、最大似然估計(MLE)、最大後驗概率估計(MAP)這幾個概念在機器學習和深度學習中經常碰到，讀文章的時候還感覺挺明白，但獨立思考時經常會傻傻分不清楚(?)，因此希望通過本文對其進行總結。

2. 背景知識

注：由於概率與數理統計需要了解的背景知識很多，因此這裡只列出了部分內容，且寫的較簡略，許多概念的學習需要根據標題自己查詢答案。

2.1 概率與統計

概率統計是很多人都學過的內容，但概率論與統計學的關係是什麼？先看一下概率論與統計學在維基百科中的定義：

概率論是集中研究概率及隨機現象的數學分支，是研究隨機性或不確定性等現象的數學。
統計學是在資料分析的基礎上，研究如何測定、收集、整理、歸納和分析反映資料資料，以便給出正確訊息的科學。

下面的一段話引自LarrB Wasserman的《All of Statistics》，對概率和統計推斷的研究內容進行了描述：

The basic problem that we studB in probabilitB is: 
Given a data generating process, what are the properities of the outcomes?

The basic problem of statistical inference is the inverse of probabilitB: 
Given the outcomes, what can we saB about 
 the process that generated the data?

概率論是在給定條件（已知模型和引數）下，對要發生的事件（新輸入資料）的預測。統計推斷是在給定資料（訓練資料）下，對資料生成方式（模型和引數）的歸納總結。概率論是統計學的數學基礎，統計學是對概率論的應用。

2.2 描述統計和推斷統計

統計學分為描述統計學和推斷統計學。描述統計，是統計學中描繪或總結觀察量基本情況的統計總稱。推斷統計指統計學中研究如何根據樣本資料去推斷總體數量特徵的方法。

描述統計是對資料的一種概括。描述統計是羅列所有資料，然後選擇一些特徵量（例如均值、方差、中位數、四分中位數等）對總體資料進行描述。推斷統計是一種對資料的推測。推斷統計無法獲取所有資料，只能得到部分資料，然後根據得到的資料推測總體資料的情況。

2.3 聯合概率和邊緣概率

假設有隨機變數 $A$ 和 $B$ ，此時 $P (A = a, B = b)$ 用於表示 $A = a$ 且 $B = b$ 同時發生的概率。這類包含多個條件且所有條件同時成立的概率稱為聯合概率。請注意，聯合概率並不是其中某個條件成立的概率，而是所有條件同時成立的概率。與之對應地， $P (A = a)$ 或 $P (B = b)$ 這類僅與單個隨機變數有關的概率稱為邊緣概率。

聯合概率與邊緣概率的關係如下：

P (A = a) = \sum_{b} P (A = a, B = b)

P (A = b) = \sum_{a} P (A = a, B = b)

2.4 條件概率

條件概率表示在條件 $B = b$ 成立的情況下， $A = a$ 的概率，記作 $P (A = a | B = b)$ ，或者說條件概率是指事件 $A = a$ 在另外一個事件 $B = b$ 已經發生條件下的發生概率。為了簡潔表示，後面省略a，b。

聯合概率、邊緣概率、條件概率的關係如下：

P (A | B) = \frac{P (A, B)}{P (B)}

轉換為乘法形式：

P (A, B) = P (B) \* P (A | B) = P (A) \* P (B | A)

2.5 全概率公式

如果事件 $A_{1} ， A_{2} ， A_{3} ， \dots ， A_{n}$ 構成一個完備事件組，即它們兩兩互不相容（互斥），其和為全集；並且 $P (A_{i})$ 大於0，則對任意事件 $B$ 有

P (B) = P (B | A_{1}) P (A_{1}) + P (B | A_{2}) P (A_{2}) + \dots + P (B | A_{n}) P (A_{n}) = \sum_{i = 1}^{n} P (B | A_{i}) P (A_{i})

上面的公式稱為全概率公式。全概率公式是對複雜事件

A

的概率求解問題轉化為了在不同情況下發生的簡單事件的概率的求和問題。

2.6 貝葉斯公式

由條件概率的乘法形式可得：

P (A | B) = \frac{P (B | A)}{P (B)} \* P (A)

貝葉斯估計、最大似然估計、最大後驗概率估計

1. 引言

2. 背景知識

2.1 概率與統計

2.2 描述統計和推斷統計

2.3 聯合概率和邊緣概率

2.4 條件概率

2.5 全概率公式

2.6 貝葉斯公式

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

貝葉斯估計、最大似然估計、最大後驗概率估計

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

極大似然估計，最大後驗概率估計(MAP)，貝葉斯估計

通俗理解最大似然估計，最大後驗概率估計，貝葉斯估計

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

極大似然估計最大後驗概率估計

最大似然估計和最大後驗概率估計的區別

似然函式（likelihood）、最大似然函式、最小二乘解

關於最大後驗概率估計就是結構風險最小化的詳解（統計學習方法）

[白話解析] 深入淺出極大似然估計 & 極大後驗概率估計

引數估計：最大似然、貝葉斯與最大後驗

最大似然估計、貝葉斯估計、最大後驗估計理論對比

【轉載】引數估計(Parameter Estimation)：頻率學派（最大似然估計MLE、最大後驗估計MAP）與貝葉斯學派（貝葉斯估計BPE）

貝葉斯思想以及與最大似然估計、最大後驗估計的區別

最大似然估計、最大後驗估計和貝葉斯估計的關係

最大似然估計、最大後驗估計與樸素貝葉斯分類演算法