統計學習筆記六----樸素貝葉斯
前言
樸素貝葉斯(naive Bayes)演算法是基於貝葉斯定理和特徵條件獨立假設的分類方法,它是一種生成模型!
對於給定的訓練資料集,首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈;然後基於此模型,對給定的輸入x,利用貝葉斯定理求出後驗概率最大的輸出y。
樸素貝葉斯演算法實現簡單,學習與預測的效率都很高,是一種常用的方法。
條件獨立性的假設
樸素貝葉斯法對條件概率分佈作了條件獨立性的假設:假設對於樣本用於分類的特徵,在類確定的條件下都是條件獨立的(特徵是條件獨立的)。這是一個較強的假設,樸素貝葉斯法也由此得名,(樸素:條件獨立性假設)。這一假設使得樸素貝葉斯演算法變得簡單,但是有的時候會犧牲一定的分類準確率。
具體地,條件獨立性假設是:
假設每一個樣本X的特徵為,那麼在這裡的條件獨立性假設是指,之間相互獨立互不影響,即:
如果沒有條件獨立性這條假設的存在,則會是:
注意,在上面公式的推導過程中我們用到了以下公式:
但是在這裡,我們假設了特徵條件獨立性,所以我們可以的得到公式(4.3)。
後驗概率
條件概率:
Bayes解釋:
P(A):A的先驗概率,不在任何條件下(沒有任何先驗知識下),A事件的概率 P(A|B):A的後驗概率,在已知B的條件下(有了B的先驗知識),A事件的概率 P(B|A):B的後驗概率 P(B):B的先驗概率,在此也常被稱為標準化常量。
實際上貝葉斯公式就是在以上條件概率的基礎上推匯出來的。我們用Bayes來描述上述公式:
後驗概率=(相似度*先驗概率)/標準化常量
P(B|A)在此稱為可能性函式,目的是使得預估計概率更接近於真實概率。
我們可以簡化為:
後驗概率=先驗概率*調整因子
樸素貝葉斯方法分類的時候,對給定的輸入x,通過學習到的模型計算後驗概率分佈,將後驗概率最大的類作為x的類輸出。
後驗概率計算根據貝葉斯定理進行:
後驗概率最大化的含義
樸素貝葉斯方法將例項分到後驗概率最大的類中,這等價於期望風險最小化,我們可以證明一下。
假設選擇0-1損失函式:
在一章的時候,我們已經介紹過損失函式的期望風險為:
這是理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失,稱為風險函式或者期望損失。
根據P(X,Y)=P(Y|X)P(X),我們可以得到以下公式:
為了使得期望風險最小化,我們只需對X=x逐個極小化,由此得到:
這樣一來,根據期望風險最小化準則就得打了後驗概率最大化準則:
實際上這就是樸素貝葉斯所採用的判別類的原理。
貝葉斯分類演算法
極大似然估計
在此有點像樣本估計總體的感覺,前提條件是樣本容量足夠大,當樣本容量不夠大的時候,就會有誤差存在。
貝葉斯估計
用極大似然估計可能會出現所要估計的概率值為0的情況,又因為我們的條件獨立性假設,這時會影響到後驗概率的計算結果,使分類產生偏差。解決這一問題的方法是採用貝葉斯估計。具體地,條件概率的貝葉斯估計是:
拓展
計算各個劃分樣本的條件概率P(xi|Y)是樸素貝葉斯分類的關鍵性步驟,當特徵屬性為離散值的時候,只要很方便的統計訓練樣本中各個劃分在每個類別中出現的頻率即可用來估計P(xi|Y),然後計算P(x1|Y)P(x2|Y)…P(xn|Y)就可以得到P(X|Y)。問題是當特徵屬性是連續值的時候我們該怎麼辦?
當特徵屬性為連續值的時候,通常假定其值服從高斯分佈(也稱為正態分佈)。即:
則P(xi|Y)為:
因此只要計算出訓練樣本中各個類別中此特徵項劃分的各均值和標準差,帶入上述公式即可得到需要的估計值。
《完》
所謂的不平凡就是平凡的N次冪。
-------By Ada