【學習筆記】Pattern Recognition&Machine Learning [1.2] Probability Theory(1)貝葉斯理論
阿新 • • 發佈:2018-11-19
這節講了概率論中的一些基本概念,這裡記錄一下對貝葉斯理論的理解。
首先簡單描述一下貝葉斯理論。
對於一個隨機事件,我們首先給出先驗分佈,不妨設為p(w)。當新的試驗D發生時,即我們觀察到新的試驗結果D時,我們就可以得到關於這個隨機事件的更多資訊,從而得到後驗(posterior)分佈p(w|D)(即更新後的p(w))。p(w|D)可通過以下方式計算:
由條件概率的定義可得 p(w|D)p(D) = p(D|w)p(w)
變形即得 p(w|D) = p(D|w)p(w)/p(D) (即貝葉斯理論)(*)
這裡p(D|w)是先驗分佈p(w)下觀察到D的可能,這個值與p(D)越接近就說明p(w)越接近頻率學派中的“真實值”,也就決定了p(w)的修正幅度,從而是反映了新試驗結果對貝葉斯理論中的p(w)的影響。
p(D|w)可看作是w的函式,也就是所謂“似然函式(likelihood function)”。給出這個定義後,我們可以這樣描述貝葉斯理論:
poster ior ∝ likelihood * prior
但是,我們仍需要計算p(D):
P(D) = ∫p(D|w)p(w) dw
在實際情況中,w的分佈範圍即引數空間是非常大的,這就造成了計算困難,也就限制了貝葉斯理論的推廣應用。而現在,隨著sample methods的發展,我們可以使用諸如馬爾可夫鏈蒙特卡洛方法等來求近似解。近來,更有效的確定性近似(deterministic approximation)理論框架,如變分貝葉斯和期望傳播,也開始發展起來。