機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

阿新 • • 發佈：2020-06-30

一、樸素貝葉斯分類器的構建

import numpy as np

class BernoulliNavieBayes:

    def __init__(self, alpha=1.):
        # 平滑係數, 預設為1(拉普拉斯平滑).
        self.alpha = alpha

    def _class_prior_proba_log(self, y, classes):
        '''計算所有類別先驗概率P(y=c_k)'''

        # 統計各類別樣本數量
        c_count = np.count_nonzero(y == classes[:, None], axis=1) 
         
# 計算各類別先驗概率(平滑修正)
        p = (c_count + self.alpha) / (len(y) + len(classes) * self.alpha)
       
        return np.log(p)

    def _conditional_proba_log(self, X, y, classes):
        '''計算所有條件概率P(x^(j)|y=c_k)的對數'''

        _, n = X.shape
        K = len(classes)

        # P_log: 2個條件概率的對數的矩陣
        # 
 矩陣P_log[0]儲存所有log(P(x^(j)=0|y=c_k))
        # 矩陣P_log[1]儲存所有log(P(x^(j)=1|y=c_k))
        P_log = np.empty((2, K, n))

        # 迭代每一個類別c_k
        for k, c in enumerate(classes):
            # 獲取類別為c_k的例項
            X_c = X[y == c]
            # 統計各特徵值為1的例項的數量
            count1 = np.count_nonzero(X_c, axis=0)
             
# 計算條件概率P(x^(j)=1|y=c_k)(平滑修正)
            p1 = (count1 + self.alpha) / (len(X_c) + 2 * self.alpha)
            # 將log(P(x^(j)=0|y=c_k))和log(P(x^(j)=1|y=c_k))存入矩陣
            P_log[0, k] = np.log(1 - p1) 
            P_log[1, k] = np.log(p1) 

        return P_log

    def train(self, X_train, y_train):
        '''訓練模型'''

        # 獲取所有類別
        self.classes = np.unique(y_train)
        # 計算並儲存所有先驗概率的對數
        self.pp_log = self._class_prior_proba_log(y_train, self.classes)
        # 計算並儲存所有條件概率的對數
        self.cp_log = self._conditional_proba_log(X_train, y_train, self.classes)

    def _predict(self, x):
        '''對單個例項進行預測'''

        K = len(self.classes)
        p_log = np.empty(K)

        # 分別獲取各特徵值為1和0的索引
        idx1 = x == 1
        idx0 = ~idx1

        # 迭代每一個類別c_k
        for k in range(K):
            # 計算後驗概率P(c_k|x)分子部分的對數.
            p_log[k] = self.pp_log[k] + np.sum(self.cp_log[0, k][idx0]) \
                                    + np.sum(self.cp_log[1, k][idx1])

        # 返回具有最大後驗概率的類別
        return np.argmax(p_log)

    def predict(self, X):
        '''預測'''

        # 對X中每個例項, 呼叫_predict進行預測, 收集結果並返回.
        return np.apply_along_axis(self._predict, axis=1, arr=X)

二、資料集的獲取

http://archive.ics.uci.edu/ml/machine-learning-databases/spambase/

三、載入資料與資料轉換

import numpy as np
data=np.loadtxt('F:/python_test/data/spambase.data',delimiter=',')
print(data)
X=data[:,:48]
X=np.where(X>0 , 1, 0)
print(X)

y=data[:,-1].astype('int')
y

四、模型擬合、預測與精度

單次訓練

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
clf=BernoulliNavieBayes()
clf.train(X_train,y_train)
from sklearn.metrics import accuracy_score
y_pred=clf.predict(X_test)
print(y_pred)
accuracy=accuracy_score(y_test,y_pred)
print(accuracy)

多次訓練，精確度沒有太多的改變，說明樸素貝葉斯分類器只要很少的樣本就能學習到大部分的特徵

def test(X,y,test_size,N):
    acc=np.empty(N)
    for i in range(N):
        X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=test_size)
        clf=BernoulliNavieBayes()
        clf.train(X_train,y_train)
        y_pred=clf.predict(X_test)
        acc[i]=accuracy_score(y_test,y_pred)
    return np.mean(acc)

sizes=np.arange(0.3,1,0.1)
print(sizes)
acc=[test(X,y,test_size,100) for test_size in sizes]
print(acc)

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.plot(sizes,acc,linestyle='--',color='red')
plt.ylim([0.87,0.88])
plt.xlabel('test_size/(test_size+trsin_size)')
plt.ylabel('accuracy')
plt.title('精確度趨勢圖')
plt.show()

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

Python資料科學手冊-機器學習：樸素貝葉斯分類

樸素貝葉斯模型樸素貝葉斯模型是一組非常簡單快速的分類方法，通常適用於維度非常高的資料集。因為執行速度快，可調引數少。是一個快速粗糙的分類基本方案。

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

技術標籤：樸素貝葉斯機器學習 step 1：庫函式匯入 import random import numpy as np # 使用基於類目特徵的樸素貝葉斯

【阿里天池雲-龍珠計劃】薄書的機器學習筆記——樸素貝葉斯(Naive Bayes)Task02

白話貝葉斯公式_關於tfidf及多項式/伯努利貝葉斯用於文字分類的詳細講解（完整示例程式碼+手工推導）...

技術標籤：白話貝葉斯公式關於tfidf以及文字分類中貝葉斯模型的介紹，網路上有很多。然而，大部分文章存在著講解片面的情況，且忽視了幾個非常容易產生誤解的地方。例如，tfidf的取值一般不是非負整數，其對應

機器學習演算法的R語言實現：樸素貝葉斯分類器

1、引子樸素貝葉斯方法是一種使用先驗概率去計算後驗概率的方法，其中樸素的意思實際上指的是一個假設條件，後面在舉例中說明。本人以為，純粹的數學推導固然有其嚴密性、邏輯性的特點，但對我等非數學專業的人來

機器學習回顧篇（5）：樸素貝葉斯演算法

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案

（3）機器學習實戰筆記：樸素貝葉斯

優點：資料比較少的時候仍然有效，可以處理多類別問題缺點：對於輸入資料的準備方式比較敏感

基於概率論的分類方法：樸素貝葉斯

#基於概率論的分類方法：樸素貝葉斯 \'\'\' 優點：在資料較少的情況下任然有效，可以處理多類別問題。

4、統計學習方法--樸素貝葉斯

樸素貝葉斯是基於貝葉斯定理與特徵條件獨立假設的分類方法。這個假設是這個方法可以實際操作的前提

樸素貝葉斯演算法的實現與推理

什麼是naive bayes 樸素貝葉斯 naive bayes，是一種概率類的機器學習演算法，主要用於解決分類問題

機器學習sklearn（83）：演算法例項（40）分類（19）樸素貝葉斯（二）不同分佈下的貝葉斯（一）高斯樸素貝葉斯GaussianNB

1 認識高斯樸素貝葉斯 1. 展示我所使用的裝置以及各個庫的版本 %%cmd pip install watermark

機器學習sklearn（85）：演算法例項（42）分類（21）樸素貝葉斯（四）不同分佈下的貝葉斯（三）多項式樸素貝葉斯以及其變化

1 多項式樸素貝葉斯MultinomialNB 1. 匯入需要的模組和庫 from sklearn.preprocessing import MinMaxScaler

機器學習sklearn（86）：演算法例項（43）分類（22）樸素貝葉斯（五）貝葉斯分類器做文字分類

1 文字編碼技術簡介 1.1 單詞計數向量 sample = [\"Machine learning is fascinating, it is wonderful\"

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

機器學習（3）高斯判別分析&樸素貝葉斯分類器

判別模型與生成模型判別模型判別模型是對觀測資料進行直接分類，常見的判別模型有邏輯迴歸和感知機演算法等。此模型僅對資料進行分類，並不能具象化或者量化資料本身的分佈狀態，因此也無法根據分類生成可

機器學習-樸素貝葉斯分類演算法（java，判斷西瓜好壞案例）

技術標籤：機器學習java演算法概率論和高中數學都學習過貝葉斯公式來計算條件概率，A發生下B傳送的概率這種題，比較熟悉。樸素貝葉斯分類演算法或許和這個有點關係吧…

機器學習—分類3-2（樸素貝葉斯演算法）

基於樸素貝葉斯預測客戶是否購買汽車新車型主要步驟流程： 1. 匯入包 2. 匯入資料集

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件

樸素貝葉斯分類學習總結

寫在前面：還是筆記的總結輸出，大佬看了笑笑就好樸素貝葉斯首先我們在小學二年級就學過先驗概率，百度百科給出的解釋：先驗概率（prior probability）是指根據以往經驗和分析得到的概率，個人理解上來

機器學習：樸素貝葉斯分類器實現二分類（伯努利型） 程式碼+專案實戰

相關推薦

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰