sklearn的機器學習之路:樸素貝葉斯
阿新 • • 發佈:2019-01-04
1. 基礎概念
什麼是樸素貝葉斯:貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。
貝葉斯公式:
X
:特徵向量 Y
:類別
先驗概率:先驗概率:是指根據以往經驗和分析得到的概率。
後驗概率:事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小。
類條件概率:在已知某類別的特徵空間中,出現特徵值X的概率密度。
樸素:樸素貝葉斯演算法是假設各個特徵之間相互獨立
樸素貝葉斯公式:
三種常見模型
- 多項式模型:多項式模型在計算先驗概率和條件概率時,會做一些平滑處理,具體公式為:
:樣本數
:類別為的樣本數
:總的類別個數
:平滑值
:類別為,且特徵為的樣本數
:特徵可以選擇的數量
- 高斯模型
當特徵是連續變數的時候,假設特徵分佈為正太分佈,根據樣本算出均值和方差,再求得概率。
- 伯努利模型
伯努利模型適用於離散特徵的情況,伯努利模型中每個特徵的取值只能是1和0。
演算法流程:
1. 處理資料,得到m個具有n個特徵的樣本,這些樣本分別屬於類別(類別數量增多,這裡說明樸素貝葉斯處理多分類問題的流程)。
2. 通過資料分析可以得到每個特徵的類條件概率