分類——樸素貝葉斯分類器以及Python實現

阿新 • • 發佈：2018-12-30

核心思想：

根據訓練資料獲取模型的後驗概率，對應後驗概率越大的類即預測類。

演算法簡介：

模型：

先驗概率： $p (y = C_{k})$
條件概率： $p (X = x | y = C_{k})$
後驗概率： $p (y = C_{k} | X = x)$
樸素的含義：輸入向量x的各個維度間是相互獨立的，那麼條件概率的計算公式可以大大簡化 $p (X = x | y = C_{k}) = \prod_{j}^{n} p (X^{j} = x^{j} | y = C_{k})$ 其中n為輸入維度數。
根據貝葉斯定理：
$p (y = C_{k} | X = x) = \frac{p (X = x | y = C_{k}) p (y = C_{k})}{p (X = x)}$ 由於 $p (X = x)$ 對所有的類來說是一樣的，故只需要計算分子(聯合概率分佈)即可。

策略

統計機器學習的策略通常是期望風險最小化，實際學習過程中以經驗風險近似期望風險(或加上正則化項)。在樸素貝葉斯方法中，期望風險最小化等價於後驗概率最大化(具體推導過程參考李航《統計學習方法》)。

學習方法（模型的引數估計）：

模型中後驗概率的計算需要先獲取先驗概率以及條件概率分佈，這兩個概率的引數是通過訓練資料集學習得到的，具體的學習方法有：極大似然估計以及後驗期望估計。極大似然估計等同於先驗分佈為均勻分佈的後驗期望估計(具體參看上一篇部落格)。具體公式參考李航《統計學習方法》。注意:書中引數的貝葉斯估計就是先驗分佈為均勻分佈的後驗期望估計。

演算法流程

Input: 訓練資料集X， y
Output: 每個類和，每個維度上取值的聯合概率
Step1: 採用後驗期望估計方法估計後驗概率
Step2: 採用後驗期望估計方法估計條件概率
Step3：根據Step1, 2結果，計算聯合分佈概率

程式碼

"""
樸素貝葉斯分類演算法
採用後驗期望估計引數，先驗概率分佈取均勻分佈
"""

from collections import Counter, defaultdict
import numpy as np


class NBayes:
    def __init__(self, lambda_=1):
        self.lambda_ = lambda_  # 貝葉斯估計方法引數lambda 

        self.p_prior = {}  # 模型的先驗概率, 注意這裡的先驗概率不是指預先人為設定的先驗概率，而是需要估計的P(y=Ck)
        self.p_condition = {}  # 模型的條件概率

    def fit(self, X_data, y_data):
        N = y_data.shape[0]
        # 後驗期望估計P(y=Ck)的後驗概率，設定先驗概率為均勻分佈
        c_y = Counter(y_data)
        K = len(c_y)
        for key, val in c_y.items():
            self.p_prior[key] = (val + self.lambda_) / (N + K * self.lambda_)
        # 後驗期望估計P(Xd=a|y=Ck)的後驗概率，同樣先驗概率為均勻分佈
        for d in range(X_data.shape[1]):  # 對各個維度分別進行處理
            Xd_y = defaultdict(int)
            vector = X_data[:, d]
            Sd = len(np.unique(vector))
            for xd, y in zip(vector, y_data): # 這裡Xd僅考慮出現在資料集D中的情況，故即使用極大似然估計葉沒有概率為0的情況
                Xd_y[(xd, y)] += 1
            for key, val in Xd_y.items():
                self.p_condition[(d, key[0], key[1])] = (val + self.lambda_) / (c_y[key[1]] + Sd * self.lambda_)
        return

    def predict(self, X):
        p_post = defaultdict()
        for y, py in self.p_prior.items():
            p_joint = py  # 聯合概率分佈
            for d, Xd in enumerate(X):
                p_joint *= self.p_condition[(d, Xd, y)]  # 條件獨立性假設
            p_post[y] = p_joint  # 分母P(X)相同，故直接儲存聯合概率分佈即可
        return max(p_post, key=p_post.get)


if __name__ == '__main__':
    data = np.array([[1, 0, -1], [1, 1, -1], [1, 1, 1], [1, 0, 1],
                     [1, 0, -1], [2, 0, -1], [2, 1, -1], [2, 1, 1],
                     [2, 2, 1], [2, 2, 1], [3, 2, 1], [3, 1, 1],
                     [3, 1, 1], [3, 2, 1], [3, 2, -1]])
    X_data = data[:, :-1]
    y_data = data[:, -1]
    clf = NBayes(lambda_=1)
    clf.fit(X_data, y_data)
    print(clf.p_prior, '\n', clf.p_condition)
    print(clf.predict(np.array([2, 0])))

我的GitHub
注：如有不當之處，請指正。

分類——樸素貝葉斯分類器以及Python實現

核心思想：根據訓練資料獲取模型的後驗概率，對應後驗概率越大的類即預測類。演算法簡介：模型：先驗概率：p(y=Ck)p(y=Ck) 條件概率：p(X=x|y=Ck)p(X=x|y=Ck) 後驗概率：p(y=Ck|X=x)p(y=Ck|X=

樸素貝葉斯算法的python實現 -- 機器學習實戰

cut ocl add set 分類器觀察 problem enc 兩個 1 import numpy as np 2 import re 3 4 #詞表到向量的轉換函數 5 def loadDataSet(): 6 postingLi

《統計學習方法》樸素貝葉斯極大使然估計 Python實現

程式碼可在Github上下載:程式碼下載今天看了一下《統計學習方法》的樸素貝葉斯的演算法，然後結合參考了《機器學習實戰》一些程式碼。用Python實現了一下例4.1。實現的是P50頁的例4.1，先簡單說下公式。 $$y=argmax_{y_k}{P(Y=y_k)\p

樸素貝葉斯詳解及其python實現

簡介貝葉斯定理用Thomas Bayes的名字命名。早在18世紀，英國學者貝葉斯提出計算條件概率的公式用來解決如下問題：假設B[1]、B[2]…B[n]互斥並且構成一個完備事件組，已知他們的概率P(B[i]),i=1,2,...,n,

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

樸素貝葉斯分類器的應用 Naive Bayes classifier

upload dia get 等號分布 eat 實現維基 5.5 一、病人分類的例子讓我從一個例子開始講起，你會看到貝葉斯分類器很好懂，一點都不難。某個醫院早上收了六個門診病人，如下表。　　癥狀　　職業　　　疾病　　打噴嚏　護士　　　感冒　　打噴嚏

機器學習--樸素貝葉斯分類，以及拉普拉斯校準

機器學習算法我們 earch lov 單詞標註樸素貝葉斯分類 images 劃分原文鏈接：http://chant00.com/2017/09/18/%E8%B4%9D%E5%8F%B6%E6%96%AF/

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習---樸素貝葉斯分類器（Machine Learning Naive Bayes Classifier）

垃圾郵件垃圾 bubuko 自己整理 href 極值 multi 帶來樸素貝葉斯分類器是一組簡單快速的分類算法。網上已經有很多文章介紹，比如這篇寫得比較好：https://blog.csdn.net/sinat_36246371/article/details/601

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

基於樸素貝葉斯分類器的 20-news-group分類及結果對比(Python3)

之前看了很多CSDN文章，很多都是根據stack overflow 或者一些英文網站的照搬。導致我看了一整天最後一點收穫都沒有。這個作業也借鑑了很多外文網站的幫助但是是基於自己理解寫的，算是一個學習筆記吧。環境是python3(海外留學原因作業是英文的，渣英語見諒吧）程式碼最後附上。 M

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

基於邏輯迴歸/決策樹/隨機森林/多層感知分類器/xgboost/樸素貝葉斯分類的資訊多分類效能對比

在上一篇（https://blog.csdn.net/baymax_007/article/details/82748544）中，利用邏輯迴歸實現資訊多分類。本文在之前基礎上，又引入決策樹、隨機森林、多層感知分類器、xgboost和樸素貝葉斯分類演算法，並對驗證集和測試集分類

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。 1.演算法思想——基於概率的預測貝葉斯決策論是概率框架下

樸素貝葉斯分類器（Naive Bayes Classifiers）

本文討論的是樸素貝葉斯分類器（ Naive Bayes classifiers）背後的理論以及其的實現。樸素貝葉斯分類器是分類演算法集合中基於貝葉斯理論的一種演算法。它不是單一存在的，而是一個演算法家族，在這個演算法家族中它們都有共同的規則。例如每個被分類的

kaggle | 基於樸素貝葉斯分類器的語音性別識別

概要：本實驗基於kaggle上的一個資料集，採用樸素貝葉斯分類器，實現了通過語音識別說話人性別的功能。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 語音性別識別

MINIST | 基於樸素貝葉斯分類器的0-9數字手寫體識別

概要：本實驗基於MINIST資料集，採用樸素貝葉斯分類器，實現了0-9數字手寫體的識別。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 影象處理; 數字手寫體識別

7.3 樸素貝葉斯分類器

樸素：屬性條件獨立性假設。即假設每個屬性獨立地對分類結果發生影響。樸素貝葉斯分類器重寫了書中的式(7.8)為： P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)∏i=1dP(xi∣c)P(

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

分類——樸素貝葉斯分類器以及Python實現

核心思想：

演算法簡介：

模型：

策略

學習方法（模型的引數估計）：

演算法流程

程式碼

相關推薦