貝葉斯分類器:樸素、半樸素貝葉斯
阿新 • • 發佈:2018-11-27
貝葉斯分類器在預先給定代價的情況下平均風險最小的分類器。
分類原理:通過某物件的先驗概率,利用貝葉斯公式計算出其後驗概率。
貝葉斯分類器的基礎
貝葉斯公式
其中,X表示n個屬性的測量描述;
H為某種假設,比如假設某觀察值X屬於某個特定的類別C;
P(X)則是X的先驗概率, P(H)也是先驗概率;
P(X|H)是類條件概率,也叫似然;
P(H|X)是後驗概率,即在條件X下,H的後驗概率;
對於分類問題,希望確定P(H|X),即能通過給定的X的測量描述,來得到假設H成立的概率,也就是給出X的屬性值,計算出該觀察值屬於類別C的概率。
舉個栗子,假設資料屬性僅限於用教育背景和收入來描述顧客,而X是學歷是碩士,收入10萬元的顧客。假定H表示假設我們的顧客將購買蘋果手機。
- P(H|X)表示當我們知道顧客的教育背景和收入情況後,該顧客將購買蘋果手機的概率;
- P(X|H)則表示如果已知顧客將購買蘋果手機,則該顧客是碩士學歷並且收入10萬元的概率;
- P(X)則是X的先驗概率,表示顧客中的某個人屬於碩士學歷且收入10萬元的概率;
- P(H)也是先驗概率,只不過是任意給定顧客將購買蘋果手機的概率,而不會去管他們的教育背景和收入情況。
模型表示
對每個樣本
選擇能使後驗概率
最大的類別標記:
即當分類器預測樣本
屬於類別
時,當且僅當:
樸素貝葉斯分類器
基於屬性條件獨立性假設(假設每個屬性獨立地對分類結果發生影響)
模型表示
在式(1)中,
由於對於所有類別來說P(x)相同,所以最終樸素貝葉斯分類器的模型表示為:
缺點
在現實任務中屬性條件獨立性假設往往很難成立
半樸素貝葉斯分類器
對屬性條件獨立性假設進行一定程度的放鬆,適當考慮一部分屬性間的相互依賴資訊。
常用策略:獨依賴估計,假設每個屬性在類別之外最多僅依賴於一個其他屬性。
其中,
是屬性
所依賴的屬性,稱為
的父屬性。