1. 程式人生 > >【機器學習】貝葉斯概率思維筆記

【機器學習】貝葉斯概率思維筆記

課程來源

目錄

  • 貝葉斯概率
  • 貝葉斯定理
  • 貝葉斯估計
  • 貝葉斯網路
  • 推薦書籍
  • 涉及名詞

前言

規則VS統計

基於規則的理性主義:如專家系統 基於統計的經驗主義:如貝葉斯 基於規則需要專業知識體系,容易定義,但通用性不高。 基於統計則需要資料,並且相關性容易造成誤導。 規則-演繹(柯南破案) 經驗-歸納(神農嘗百草)

貝葉斯思維

頻率派VS貝葉斯派

頻率派

通過長期、大量、重複實驗:發生的頻率(大數定律) 引數是常數 概率是客觀存在的常數

貝葉斯派

信則有,不信則無 引數是隨機變數

貝葉斯概率

先驗概率:P(A) 後驗概率:P(A|B)(已知B的前提下對A的信念)

貝葉斯定理

貝葉斯定理: P

(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)} 已知先驗,計算後驗

通俗解釋

問題:白馬上坐著的不一定是王子,還可能是唐僧。那麼,如何確定是王子還是唐僧。 P(A): 已知白馬上坐著的可能是王子,也可能是唐僧。 P(B|A): 坐著的是王子時,後邊大概率跟著的是儀仗隊。如果是唐僧,後邊跟著的大概率是三個徒弟。這樣就可以根據白馬後的場景(P(B))來判斷白馬上坐的是誰(P(A|B))

頻率派和貝葉斯派的比較

對於一種病來說,如果藥物對病症的有效率有95%,但是對非病者有5%的中毒率,那頻率派認為這個藥是可以使用的。但是如果這個病是罕見病,則貝葉斯定理會得出一個很小的數。因為P(A)太低了。對正常人來說,雖然中毒率低,但是基數過大,因此對最後結果有很大的影響。

貝葉斯估計

最大似然估計

最大似然估計(頻率派思維) 引數:parameter=θparameter = {\theta} 資料: D={d1,d2....dn}D = \{d_1,d_2....d_n\} argmaxθp(θD)argmaxθp(Dθ)\mathop{\arg\max}_{\theta}p(\theta|D)\Leftrightarrow \mathop{\arg\max}_{\theta}p(D|\theta) likelihood=arg
max
θ
p(Dθ)
likelihood = \mathop{\arg\max}_{\theta}p(D|\theta)
當你已知一組資料時,要去分析引數是多少,才能使這組資料出現的概率最大。就叫最大似然估計。 這屬於頻率派思維,但是它沒有考慮資料D出現的概率是多少。

最大後驗估計

最大後驗估計(MAP)(貝葉斯派)(如果知道先驗概率) argmaxθp(θD)argmaxθp(Dθ)p(θ)\mathop{\arg\max}_{\theta}p(\theta|D)\Leftrightarrow \mathop{\arg\max}_{\theta}p(D|\theta)p(\theta) 需要考慮先驗概率p(θ)p(\theta) 像是在最大似然估計上加一個修正項。有一些貝葉斯的思想

貝葉斯估計

最大後驗估計還不是純正的貝葉斯思維,如果按照貝葉斯定理,則 p(θD)=p(Dθ))p(θp(D,θ)dθp(\theta|D) = \frac{p(D|\theta))p(\theta}{\int p(D,\theta)d\theta} 貝葉斯估計公式: p(y^x,D)=θp(y^x,θ)p(θD)dθp(\hat{y}|x^*,D) = \int_{\theta}p(\hat{y}|x^*,\theta)p(\theta|D)d\theta (積分理解成求和,可以連續可以離散) 貝葉斯適合解決資料不平衡的問題

總結

最大似然估計對資料量需求最大,因為沒有任何先驗知識的修正,但是也會因此導致過擬合。 最大後驗估計和貝葉斯估計有先驗知識的修正,所以對資料量需求不大。但是壞處是需要好的先驗知識。

貝葉斯網路

與神經網路沒有關係,和概率圖模型更接近。

推薦書籍

《貝葉斯方法:概率程式設計與貝葉斯推斷》 《統計學習方法》 《像電腦科學家一樣思考python》

涉及名詞

達特茅斯會議 Alpha-go 蒙特卡洛樹搜尋【基於統計的概率計算】 拉斯維加斯演算法 馬爾科夫性 隱式馬爾可夫鏈