1. 程式人生 > >[PRML] Bayesian Learning 貝葉斯學習方法

[PRML] Bayesian Learning 貝葉斯學習方法

問題引入

  在上一篇部落格[PRML] Point Estimation 點估計 的最後,難搞的富翁提了一個無厘頭的問題,他固執地認為,圖釘頭朝上和屁股朝上的概率和拋硬幣一樣是五五開。儘管我們很好地用理論闡述了為什麼圖釘頭朝上的概率是3/5,但富翁還是要我們解釋一下為什麼。沒辦法,誰讓人家給錢呢:(

θ的概率分佈

  在點估計中,我們假設圖釘頭朝上的概率是一個單值,現在,更一般地,我們假設θ滿足一定的概率分佈,如圖1。

圖1 theta的概率分佈
圖1 θ的概率分佈

  在貝葉斯學習方法中,我們把實驗之前的知識(富翁認為的五五開概率),稱為先驗Prior。圖1關於θ的概率分佈即可用來表示富翁的先驗知識,θ
取值為0.5的概率最大。

貝葉斯學習方法

  貝葉斯方法實際上是在先驗知識的基礎上,根據實驗結果,獲得後驗知識Posterior,即修正先驗知識,使得它滿足我們觀測的結果,如圖2。

貝葉斯學習方法
圖2 貝葉斯學習方法

  現在給出通過資料修正先驗獲得後驗的方法,即貝葉斯方程。
貝葉斯方程

  P(θ)為先驗的θ出現的概率,P(D|θ)為概率θ下D出現的概率,P(D)為D出現的概率,P(θ|D)為D出現的情況下θ的後驗概率。
  注意到P(D)=θP(θ)P(D|θ)dθ實際上是一個用來歸一化的常數。因此貝葉斯方程可以等價地表示為
P(θ|D)P(θ)P(D|θ)

關於貝葉斯方程,請閱讀概率論相關書籍。
P

(θ,D)=P(D)P(θ|D)=P(θ)P(D|θ)θD同時發生的概率等於在D發生後θ也發生,也等於θ發生後D也發生。
需要注意的是,θ表示的是圖釘頭向上的概率,但它本身是一個變數,滿足某一個概率分佈。(概率發生的概率:(是哦,有點迷:()

給富翁的解釋

  在富翁問題中,我們能夠得到似然函式likelihood function:P(D|θ)=θαH(1θ)αTP(D)是個常數,可以暫時不管。
  那麼我們的先驗prior具體是什麼呢?一般我們希望先驗滿足兩個條件:

  • 很好地表達了專家知識,或者說已經掌握的知識
  • 求得的後驗具有良好的形式

  這裡我們引入共軛先驗Conjugate priors的概念,共軛先驗具有很好的性質,關於後驗封閉。所謂的關於後驗封閉,即通過共軛先驗獲得的後驗,在形式上與先驗是相同的。
  我們看到在富翁問題中,我們的似然函式是二項分佈,對於二項分佈,它的共軛先驗是Beta分佈。因此,我們選擇先驗:

P(θ)Beta(θ|βH,βT)=θβH1(1θ)βT1B(βH,βT)=Γ(βH+βT)Γ(βH)Γ(βT)θβH1(1θ)βT1

暫時不深究Beta分佈的相關性質,βHβT是Beta分佈的兩個引數
這裡給出Beta分佈的一個概率密度函式,直觀上能有個認識
Beta概率密度函式
B函式是一個標準化函式,它只是為了使得Beta分佈的概率密度積分等於1。
B(α,β)=Γ(α)Γ(β)Γ(α+β)

  現在有了先驗和似然函式,我們可以得到後驗。

P(θ|D)P(θ)P(D|θ)θβH1(1θ)βT1θαH(1θ)αTBeta(αH+βH,αT+βT)

  當然,這裡我們得到的是一個關於θ的分佈。但一般人,比如說富翁,可能更需要像上一篇部落格中一樣,給出一個單值來表示尖朝上的概率。
  最簡單的,我們可以使用θ的期望:

E[θ]=1

相關推薦

[PRML] Bayesian Learning 學習方法

問題引入   在上一篇部落格[PRML] Point Estimation 點估計 的最後,難搞的富翁提了一個無厘頭的問題,他固執地認為,圖釘頭朝上和屁股朝上的概率和拋硬幣一樣是五五開。儘管我們很好地用理論闡述了為什麼圖釘頭朝上的概率是3/5,但富翁還是要我們

機器學習之樸素分類方法

本文轉載自http://holynull.leanote.com/post/Logistic-2 樸素貝葉斯分類方法 前言 樸素貝葉斯分類演算法是機器學習領域最基本的幾種演算法之一。但是對於作者這樣沒有什麼資料基礎的老碼農來說,理解起來確實有一些困難。所以撰寫此文幫

《統計學習方法(李航)》樸素學習筆記

作者:jliang https://blog.csdn.net/jliang3   1.重點歸納 1)樸素貝葉斯(naive Bayes)法只能用於分類,先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈,然後對給定的輸入x,利用貝葉斯定理求出後驗概率最大的輸出y。 2

統計學習方法第四章極大似然估計的樸素分類方法例題4.1程式碼實踐

#-*- coding:utf-8 -*- from numpy import * #將書上的資料輸入,這裡懶得輸入那麼多個列表就用下array的轉置方法吧!就用這個方法吧0.0 def loadDataSet(): dataSet=[[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],

樸素學習

exc 意義 switch == java代碼 ets edi for 地方 樸素貝葉斯,為什麽叫“樸素”,就在於是假定所有的特征之間是“獨立同分布”的。這樣的假設肯定不是百分百合理的,在現實中,特征與特征之間肯定還是存在千絲萬縷的聯系的,但是假設特征之間是“獨立同分布

分類:樸素分類方法

       樸素貝葉斯分類方法的特點是基於概率方法實現分類,這在諸多的分類方法中比較少見。貝葉斯方法都有所耳聞,之所以稱為“樸素”貝葉斯方法,是因為在分類時,假定了“各變數間相互獨立”的條件,這個條件算是比較強的了,大大簡化了分類時的計算,但同時也丟失了一些

機器學習學習

機器學習之貝葉斯學習 一、概述 二、貝葉斯決策論 1. 什麼是貝葉斯公式? 2. 最小錯誤率貝葉斯決策 3. 最小風險貝葉斯決策 4. 極大似然估計(MLE) 三、貝葉斯分類器 1. 樸素貝葉斯分類器基本知識 2. 三種常見的模型 2. 貝葉斯分類器

天真學習機 | TiDB Hackathon 優秀專案分享

Ti Hack 系列 TiDB Hackathon 2018 共評選出六組優秀專案,本系列文章將由這六組專案的成員主筆,分享他們的參賽經驗和成果。我們非常希望本屆 Hackathon 誕生的優秀專案能夠在社群中延續下去,感興趣的小夥伴們可以加入進來哦~ 本文作者是來自 DSG 團隊的楊文同學,他們的專案《天

機器學習實戰:樸素--學習筆記

一、工作原理 我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率,用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率; 那麼對於一個新資料點 (x,y),可以用下面的規則來判斷它的類別: 如果 p1(x,y)

樸素學習筆記

        一直以來對於貝葉斯聽的很多,但是記憶中僅有的只是一個貝葉斯的公式。最近自學機器學習的演算法,看到了很多貝葉斯分類器的文章視屏,現在終於對貝葉斯有了一個深入的瞭解。下面是我自己在學習之後的認識,寫一個學習筆記吧,當作自己的備忘錄。如有錯誤,歡迎批評指正。 1、

基於MNIST資料集通過樸素學習生成隨機手寫體數字影象

        好久沒寫部落格了,話不多說,進入主題。 1、貝葉斯方法 2、訓練資料集 3、具體實現過程         3.1 匯入資料集         上面提到的資料由於編碼問題,需要自己寫匯入方法,如果你也是用python的話,有現成的模板可以使用。推薦一個Gi

模式識別四--最大似然估計與估計方法

文章轉自:http://www.kancloud.cn/digest/prandmethod/102846         之前學習了貝葉斯分類器的構造和使用,其中核心的部分是得到事件的先驗概率並計算出後驗概率 ,而事實上在實際使用中,很多時候無法得到這些完整的資訊,因此我們需要使用另外一個重要的工具——引

大資料中的學習

在大資料時代,種類多樣的科學與工程資料快速增加。由於物理環境的隨機性、資料噪聲、資訊不完全等因素的存在,大資料中具有普遍的不確定性。如何對大資料進行有效的不確定性建模和高效計算是機器學習面臨的重要挑戰。 貝葉斯方法自1763年提出以來,已有250多年的歷史,在人工智慧、機器學

模式識別:最大似然估計與估計方法

之前學習了貝葉斯分類器的構造和使用,其中核心的部分是得到事件的先驗概率並計算出後驗概率 ,而事實上在實際使用中,很多時候無法得到這些完整的資訊,因此我們需要使用另外一個重要的工具——引數估計。 引數估

【實踐】CTR預估中的平滑方法(二)

1. 前言 這篇部落格主要是介紹如何對貝葉斯平滑的引數進行估計,以及具體的程式碼實現。 首先,我們回顧一下前文中介紹的似然函式,也就是我們需要進行最大化的目標函式: 下面我們就基於這個目標函式介紹怎樣估計引數。 2. 引數估計的幾種方法 1. 矩估計 矩估計在這裡有點亂

機器學習(5)——學習(二)

在上一節的分析中,我們的討論基本上都是以一個輸入變數來討論,但是在實際的情況中,存在不止一個輸入變數,那麼我們如何從多個不同量和觀察來推導概率呢?這一章中我們將基於這個問題來進行相關的討論。 在開始之前,先介紹一個概念——貝葉斯網路(Bayesian Netw

學習、MAP、ML

貝葉斯估計與有監督學習 如何用貝葉斯估計解決有監督學習問題? 對於有監督學習,我們的目標實際上是估計一個目標函式f : X->Y,,或目標分佈P(Y|X),其中X是樣本的各個feature組成的多維變數,Y是樣本的實際分類結果。假設樣本X的取值為xk,

Bayesian

樸素貝葉斯原理: 雖然決策樹抽象出了規則,方便了人的理解,但是嚴格按照決策樹來判斷新朋友能否成為好朋友感覺很困難,這個可能效能夠把握嗎?比如我和TA有80%的可能成為好朋友。又或者能將我的朋友們分為“三六九等”嗎?即,多分類問題。今天總結–和決策樹一樣被最

資料探勘筆記——學習

貝葉斯決策理論是樸素貝葉斯分類、貝葉斯信念網路、EM演算法的基礎。特點:(1)每個觀測值都可以提高/降低估計值           (2)先驗知識可以和觀測資料共同決定最終的假設概率          (3)概率預測,可以提供假設好壞的度量          (4)新例項可以

學習--極大後驗概率假設和極大似然假設

在機器學習中,通常我們感興趣的是在給定訓練資料D時,確定假設空間H中的最佳假設。 所謂最佳假設,一種辦法是把它定義為在給定資料D以及H中不同假設的先驗概率的有關知識條件下的最可能(most probable)假設。 貝葉斯理論提供了計算這種可能性的一種直接的方法。更精確地講