機器學習筆記(五):樸素貝葉斯分類器
一、概述
1.1 簡介
樸素貝葉斯(Naive Bayesian)是基於貝葉斯定理和特徵條件獨立假設的分類方法,它通過特徵計算分類的概率,選取概率大的情況進行分類,因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的,所以也是屬於監督學習。
Q1:什麼是基於概率論的方法?
通過概率來衡量事件發生的可能性。概率論和統計學恰好是兩個相反的概念,統計學是抽取部分樣本進行統計來估算總體的情況,而概率論是通過總體情況來估計單個事件或者部分事情的發生情況。因此,概率論需要已知的資料去預測未知的事件。
例如,我們看到天氣烏雲密佈,電閃雷鳴並陣陣狂風,在這樣的天氣特徵(F)下,我們推斷下雨的概率比不下雨的概率大,也就是p(下雨)>p(不下雨)p(下雨)>p(不下雨),所以認為待會兒會下雨。這個從經驗上看對概率進行判斷。
而氣象局通過多年長期積累的資料,經過計算,今天下雨的概率p(下雨)=85%,p(不下雨)=15%p(下雨)=85%,p(不下雨)=15%,同樣的,p(下雨)>p(不下雨)p(下雨)>p(不下雨),因此今天的天氣預報肯定預報下雨。這是通過一定的方法計算概率從而對下雨事件進行判斷。
Q2:樸素貝葉斯,樸素在什麼地方?
之所以叫樸素貝葉斯,因為它簡單、易於操作,基於特徵獨立性假設,假設各個特徵不會相互影響,這樣就大大減小了計算概率的難度。
1.2 條件概率與貝葉斯定理
(1)概率論中幾個基本概念
事件交和並:
A和B兩個事件的交,指的是事件A和B同時出現,記為A∩B;
A和B兩個事件的並,指的是事件A和事件B至少出現一次的情況,記為A∪B。
互補事件:
事件A的補集,也就是事件A不發生的時候的事件,記為 。這個時候,要麼A發生,要麼 發生, 。
條件概率(conditional probability):
某個事件發生時另外一個事件發生的概率,如事件B發生條件下事件A發生的概率:
概率的乘法法則(multiplication rule of probability):
獨立事件交的概率:
兩個相互獨立的事件,其交的概率為:
(2)貝葉斯定理(Bayes’s Rule):
如果有k個互斥且有窮個事件
,並且, 和一個可以觀測到的事件A,那麼有:
1.3 樸素貝葉斯分類的原理
樸素貝葉斯基於條件概率、貝葉斯定理和獨立性假設原則
(1)首先,我們來看條件概率原理:
基於概率論的方法告訴我們,當只有兩種分類時:
如果
,那麼分入類別1
如果
,那麼分入類別2
(2)其次,貝葉斯定理
同樣的道理,引入貝葉斯定理,有:
其中, 表示特徵變數, 表示分類, 即表示在特徵為 的情況下分入類別 的概率,因此,結合條件概率和貝葉斯定理,有:
-
如果