先驗概率,後驗概率,似然概率
老是容易把先驗概率,後驗概率,似然概率混淆,所以下面記錄下來以備日後查閱。區分他們最基本的方法就是看定義,定義取自維基百科和百度百科:
先驗概率
- 百度百科定義:先驗概率(prior probability)是指根據以往經驗和分析得到的概率,如全概率公式,它往往作為"由因求果"問題中的"因"出現的概率。
- 維基百科定義: 在貝葉斯統計中,某一不確定量p的先驗概率分佈是在考慮"觀測資料"前,能表達p不確定性的概率分佈。
可以看到二者定義有一個共同點,即先驗概率是不依靠觀測資料的概率分佈,也就是與其他因素獨立的分佈。所以可以用\(P(\theta)\)表示。
後驗概率
維基百科定義: 在貝葉斯統計中,一個隨機事件或者一個不確定事件的後驗概率是在考慮和給出相關證據或資料後所得到的條件概率。同樣,後驗概率分佈是一個未知量(視為隨機變數)基於試驗和調查後得到的概率分佈。
簡單的理解就是這個概率需要機遇觀測資料才能得到,例如我們需要對一個神經網路建模,我們需要基於給定的資料集X才能得到網路引數θ的分佈,所以後驗概率表示為\(P(θ|X)\)
似然概率
百度百科定義: 統計學中,似然函式是一種關於統計模型引數的函式。給定輸出x時,關於引數θ的似然函式L(θ|x)(在數值上)等於給定引數θ後變數X的概率:L(θ|x)=P(X=x|θ)。
維基百科定義: 在數理統計學中,似然函式是一種關於統計模型中的引數的函式,表示模型引數中的似然性。
似然概率很好理解,就是說我們現在有一堆資料,現在需要構建一組引數對這些資料建模,以使得模型能夠儘可能地擬合這些資料。所以我們要做的就是從很多組引數中選出一組使得模型對資料的擬合程度最高,所以也常常說最大似然概率,即 \(\underset{θ}{\operatorname{argmax}}P(X|θ)\)。
總結
現在總結一下:
- 先驗概率: \(P(θ)\)
- 後驗概率: \(P(θ|X)\)
- 似然概率: \(P(X|θ)\)
它們三者存在這樣的關係:
\[P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)}\]
一般而言資料\(P(X)\)的分佈是知道的,所以有
\[P(θ|X) ∝ P(X|θ)P(θ)\]
此外,當引數θ是均勻分佈時,後驗概率和似然概率成正比,即:
\[P(θ|X) ∝ P(X|θ)\]