機器學習003——貝葉斯概率
阿新 • • 發佈:2022-05-09
關於貝葉斯概率,參考了茆詩孫版本《概率論與數理統計》中有關貝葉斯的介紹,但是我對其中的介紹的理解比較混亂。李航《統計機器學習》,周志華《機器學習》也看過,沒有對貝葉斯概率基本概念及理論有詳細介紹,都是其衍生的知識介紹。由於工作中經常表述與基於《模式識別與機器學習》一書的描述接近,故此次先記錄這種風格的貝葉斯概率介紹。
根據隨機重複事件的頻率來考察概率,我們把這種叫做經典的或者頻率學家的關於頻率的觀點。下面將介紹的將是貝葉斯觀點下的概率,提供了不確定性的一個定量化描述。為什麼會有不同的觀點呢?可能各有其優缺點。比如頻率學派觀點,是根據隨機事件不斷重複來描述不確定性,而不是所有的隨機事件都可以這樣不斷重複。比如本世紀末北極冰蓋是否會消失,比如新冠病毒將會導致多少人死亡,多少人感染,人類何時能控制住這種病毒。這些都是不可重複的。
在回到《模式識別與機器學習》開篇的多項式擬合曲線問題上,首先選擇多項式方式來擬合曲線,那麼求解多項式的係數/引數\(\omega\)
\(p(\omega|D)=\frac{p(D|\omega)p(\omega)}{p(D)}\)
牢記記住此種表述,後續概率相關描述都更容易理解,也不會產生太多概念上理解歧義或者混淆。
在貝葉斯概率論中,選擇某種模型,其中涉及到的引數\(\omega\)是我們研究的重點,觀察資料D是由引數\(\omega\)取某個值產生的。注意這個因果關係,可能這樣描述不準確。這裡的\(\omega\)是一個隨機變數。我們把這個隨機變數的概率,也就是這個引數\(\omega\)的概率常用先驗概率來稱呼,通常會對其有個我們熟知的假設。觀察到的資料D的概率,實際上是條件概率,在給定的某個\(\omega\)
給定似然函式的定義,我們可以用自然語言來表述貝葉斯定理
$posterior \propto $ likelihood x prior