深入解析樸素貝葉斯演算法
樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。
1)對於給定的資料集,首先基於特徵條件獨立假設學習輸入\輸出的聯合概率分佈;
2)然後基於此模型,對給定的輸入
,利用貝葉斯定理求出後驗概率最大的輸出
下面我們就圍繞上面2個步驟進行介紹。
基本概念:
先驗概率:是根據以往的經驗和分析得到的概率(先驗概率是我們在未知條件下對事件發生可能性猜測的數學表示)
後驗概率:事情已經發生,要探求這件事情發生的原因是由某個因素引起的可能性大小(根據結果反推是由那個原因引起的)
(下面的例子參考這個老哥的部落格:https://www.cnblogs.com/yemanxiaozu/p/7680761.html)
其中 就是後驗概率,所謂後驗概率是一種果因概率,即在一個結果已經發生的條件下,可能是其中一個原因造成的概率有多大。
貝葉斯公式:
貝葉斯公式是由聯合概率公式推匯出來的:
概率論與數理統計中關於貝葉斯公式的解釋:
“如果我們把事件Y看做【結果】,把諸事件X1.X2……看做導致這個結果的可能的【原因】,則可以形象的把全概率公式看做成為【由原因推結果】;而貝葉斯公式則恰好相反,其作用於【由結果推原因】:現在有一個【結果】Y已發生,在眾多可能的【原因】中,到底是哪一個導致了這個【結果】”
用機器學習視角理解貝葉斯公式
在機器學習的視角下,我們把X理解為“具有某特徵”,把Y理解成“類別標籤”,則
P(“屬於某類”|“具有某特徵”)=在已知某樣本“具有某特徵”的條件下,該樣本“屬於某類”的概率。所以叫做『後驗概率』。
P(“具有某特徵”|“屬於某類”)=在已知某樣本“屬於某類”的條件下,該樣本“具有某特徵”的概率。
P(“屬於某類”)=(在未知某樣本具有該“具有某特徵”的條件下,)該樣本“屬於某類”的概率。所以叫做『先驗概率』。
P(“具有某特徵”)=(在未知某樣本“屬於某類”的條件下,)該樣本“具有某特徵”的概率。
樸素貝葉斯法的學習與分類
樸素貝葉斯法通過訓練集學習聯合概率分佈
,具體的,學習以下先驗概率分佈及條件概率分佈
先驗概率分佈
----------------------(1)
條件概率分佈
------------(2)
由(1)和(2)可得到聯合概率分佈
樸素貝葉斯法對條件概率分佈做了條件獨立性的假設,所以得名為樸素
具體的,條件獨立性假設是: