機器學習之伯努利貝葉斯分類器bernoulliNB

阿新 • • 發佈：2018-11-25

機器學習之伯努利貝葉斯分類器bernoulliNB

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 25 11:45:17 2018

@author: muli
"""

from sklearn import naive_bayes,datasets,cross_validation
import  numpy as np
import  matplotlib.pyplot as plt


def load_data():
    '''
    載入用於分類問題的資料集。這裡使用 scikit-learn 自帶的 digits 資料集

    :return: 一個元組，用於分類問題。元組元素依次為：訓練樣本集、測試樣本集、訓練樣本集對應的標記、測試樣本集對應的標記
    '''
    # 載入 scikit-learn 自帶的 digits 資料集
    digits=datasets.load_digits() 
    #分層取樣拆分成訓練集和測試集，測試集大小為原始資料集大小的 1/4
    return cross_validation.train_test_split(digits.data,digits.target,
		test_size=0.25,random_state=0,stratify=digits.target)


def test_BernoulliNB(*data):
    '''
    測試 BernoulliNB 的用法

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    cls=naive_bayes.BernoulliNB()
    cls.fit(X_train,y_train)
    print('Training Score: %.2f' % cls.score(X_train,y_train))
    print('Testing Score: %.2f' % cls.score(X_test, y_test))


def test_BernoulliNB_alpha(*data):
    '''
    測試 BernoulliNB 的預測效能隨 alpha 引數的影響

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    alphas=np.logspace(-2,5,num=200)
    train_scores=[]
    test_scores=[]
    for alpha in alphas:
        cls=naive_bayes.BernoulliNB(alpha=alpha)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))

    ## 繪圖
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(alphas,train_scores,label="Training Score")
    ax.plot(alphas,test_scores,label="Testing Score")
    ax.set_xlabel(r"$\alpha$")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.0)
    ax.set_title("BernoulliNB")
    ax.set_xscale("log")
    ax.legend(loc="best")
    plt.show()


def test_BernoulliNB_binarize(*data):
    '''
    測試 BernoulliNB 的預測效能隨 binarize 引數的影響

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    min_x=min(np.min(X_train.ravel()),np.min(X_test.ravel()))-0.1
    max_x=max(np.max(X_train.ravel()),np.max(X_test.ravel()))+0.1
    binarizes=np.linspace(min_x,max_x,endpoint=True,num=100)
    train_scores=[]
    test_scores=[]
    for binarize in binarizes:
        cls=naive_bayes.BernoulliNB(binarize=binarize)
        cls.fit(X_train,y_train)
        train_scores.append(cls.score(X_train,y_train))
        test_scores.append(cls.score(X_test, y_test))

    ## 繪圖
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(binarizes,train_scores,label="Training Score")
    ax.plot(binarizes,test_scores,label="Testing Score")
    ax.set_xlabel("binarize")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.0)
    ax.set_xlim(min_x-1,max_x+1)
    ax.set_title("BernoulliNB")
    ax.legend(loc="best")
    plt.show()



if __name__=='__main__':
    # 產生用於分類問題的資料集
    X_train,X_test,y_train,y_test=load_data() 
    # 呼叫 test_BernoulliNB
#    test_BernoulliNB(X_train,X_test,y_train,y_test) 
    # 呼叫 test_BernoulliNB_alpha
#    test_BernoulliNB_alpha(X_train,X_test,y_train,y_test) 
    # 呼叫 test_BernoulliNB_binarize
    test_BernoulliNB_binarize(X_train,X_test,y_train,y_test)

機器學習之伯努利貝葉斯分類器bernoulliNB

機器學習之伯努利貝葉斯分類器bernoulliNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:45:17 2018 @author: muli """ from sklearn import naive

機器學習筆記（參考吳恩達機器學習視訊筆記）17_貝葉斯分類器

17 貝葉斯分類器貝葉斯分類是一種分類演算法的總稱，這種演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。貝葉斯分類器的分類原理是通過某物件的先驗概率，利用貝葉斯公式計算出其後驗概率，即該物件屬於某一類的概率，選擇具有最大後驗概率的類作為該物件所屬的類。 17.1 貝葉斯

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

OpenCV機器學習（1）：貝葉斯分類器實現程式碼分析

OpenCV的機器學習類定義在ml.hpp檔案中，基礎類是CvStatModel，其他各種分類器從這裡繼承而來。今天研究CvNormalBayesClassifier分類器。 1.類定義在ml.hpp中有以下類定義： class CV_EXPORTS_W CvNorm

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

sklearn的機器學習之路：樸素貝葉斯

1. 基礎概念什麼是樸素貝葉斯：貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。貝葉斯公式

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。好瓜有8個，壞瓜有9個屬性色澤，根蒂，敲聲，因為是離散屬性，根據公式（7.17） P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

機器學習學習筆記（11）貝葉斯分類器

貝葉斯決策論是在概率框架下實施決策的基本方法。對分類任務來說，在所有相關概率都已知的理想情形下，貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記，假設有N種可能的類別標記，即，是將一個真實標記為的樣本誤分類為所產生的損失，則基於後驗概率可獲得將樣本x分類為所

Python與機器學習（五）樸素貝葉斯分類

1.安裝中文分詞器由於本文是對中文文字進行分類，故需要用到中文分詞器，而結巴分詞則是Python支援較好的一款分詞器。使用命令安裝： pip3 install jieba3k 或者下載結巴分詞檔案【下載】結巴分詞測試：結巴分詞支援三種分詞模式：精確模式，也是結巴

周志華《Machine Learning》學習筆記（8）--貝葉斯分類器

上篇主要介紹和討論了支援向量機。從最初的分類函式，通過最大化分類間隔，max(1/||w||)，min(1/2||w||^2)，凸二次規劃，朗格朗日函式，對偶問題，一直到最後的SMO演算法求解，都為尋找一個最優解。接著引入核函式將低維空間對映到高維特徵空間，解決

文字分類之情感分析 – 樸素貝葉斯分類器

情感分析正成為研究和社交媒體分析的熱點領域，尤其是在使用者評論和微博上。它是文字挖掘的一種特殊情況，一般關注在識別正反觀點上，雖然它常不很準確，它仍然是有用的。為簡單起見（因為訓練資料容易獲取），我將重點放在2個可能的情感分類：積極的和消極的。 NLTK 樸素貝葉斯分

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之多項式貝葉斯分類器multinomialNB

機器學習之多項式貝葉斯分類器multinomialNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:28:25 2018 @author: muli """ from sklearn import nai

機器學習之高斯貝葉斯分類器gaussianNB

機器學習之高斯貝葉斯分類器gaussianNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 10:55:17 2018 @author: muli """ from sklearn import naive_b

機器學習之樸素貝葉斯分類器附C++程式碼

一、基本概念：先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。聯合概率：表示兩個事件共同發生的概率。A與B的

周志華《機器學習》之第七章（貝葉斯分類器）概念總結

貝葉斯分類器是利用概率的知識完成資料的分類任務，在機器學習中使用貝葉斯決策論實施決策的基本方法也是在概率的框架下進行的，它是考慮如何基於這些概率和誤判損失來選擇最優的類別標記。 1、貝葉斯決策論條件風險：假設有N種可能的類別標記，Y={c1,c2,c3

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

機器學習演算法筆記之4：貝葉斯分類器

一、貝葉斯分類器詳解貝葉斯分類器是一類分類演算法的總稱，這類演算法均以貝葉斯定理為理論基礎。貝葉斯分類器的分類原理是通過先驗概率，利用貝葉斯公式計算出後驗概率，選擇最大後驗概率所對應的分類結果。貝葉斯準則其中，P(c)是先驗概率，P(x|c)樣本x相對於；類標記c的類

（筆記）斯坦福機器學習第六講--樸素貝葉斯

span || -h 沒有 height 單純去除變量 logistic 本講內容 1. Naive Bayes（樸素貝葉斯） 2.Event models（樸素貝葉斯的事件模型） 3.Neural network （神經網絡） 4.Support vector mac

機器學習之伯努利貝葉斯分類器bernoulliNB

相關推薦