1. 程式人生 > >樸素貝葉斯分類--筆記

樸素貝葉斯分類--筆記

參考連結:1.https://blog.csdn.net/li8zi8fa/article/details/76176597;

2.https://www.cnblogs.com/lliuye/p/9178090.html

3.https://blog.csdn.net/zengxiantao1994/article/details/72787849

4.https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

 

本文目標:直觀理解樸素貝葉斯是怎麼做到分類的(how it works for classification),即形象並具體地說明演算法步驟和思路來源。

基礎:貝葉斯定理,即後驗概率的計算公式。包括條件概率、先驗概率、後驗概率等概念。

0、樸素貝葉斯是什麼?

  樸素貝葉斯法(Naive Bayes)是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集,首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈;然後基於此模型,對給定的輸入 x ,利用貝葉斯定理求出後驗概率最大的輸出 y 。——《統計學習方法》

  看完定義,其實樸素貝葉斯(Naive Bayes)是屬於機器學習演算法下的監督學習演算法中的分類演算法。

1、貝葉斯定理

  又稱貝葉斯公式,目的是通過先驗概率和類條件概率來求後驗概率。

  

 

  舉例來說:已知:在夏季,某公園男性穿涼鞋的概率為1/2,女性穿涼鞋的概率為2/3,並且該公園中男女比例通常為2:1,問題:若你在公園中隨機遇到一個穿涼鞋的人,請問他的性別為男性或女性的概率分別為多少?

 

  其實上述例子中,A就是一種特徵,B1和B2就是類別標籤,因此用於貝葉斯分類任務的貝葉斯公式可以這樣理解:

  

  樸素貝葉斯分類又是啥意思呢?

  首先,它所解決的分類問題中,特徵X有很多維度,即它是一個向量,,如此n維的特徵X會帶來指數級數量的引數(後面再講)

  ,其中k取1,2,...,K。(代表一共有類別Y一共有K類)

 

  其次,樸素的意思就是,對類條件概率做了條件獨立性假設,就是下面的等式被它假設成立了:

  ,也就是說,本來X包含了n個的特徵,一般情況下則n個特徵的聯合分佈的概率不會是各個特徵各自的概率分佈的乘積,除了這n個特徵互相之間是獨立的,因此樸素所代表的是一種假設,而且是很強的假設。

2.樸素貝葉斯的引數估計

  樸素貝葉斯演算法中,訓練階段(學習)就是從訓練集中,估計出。也就是估計先驗概率分佈和類條件概率分佈。

 

未完待續。。