Python實現貝葉斯分類器

阿新 • • 發佈：2019-02-01

使用樸素貝葉斯分類器，對一片文章進行分類處理

貝葉斯分類器的優缺點：

優點：

速度相對較快，因為針對每個分類的特徵詞不會太多
演算法比較簡單
可以動態的新增訓練資料集合
分類的過程可以檢視

缺點：

無法處理基於特徵組合所產生的變化結果

貝葉斯—文字分類的步驟：

對中文進行分詞處理 —jieba分詞
對分開的詞語進行處理，去除重複詞彙，去除標點和單個虛擬詞彙如：你，我，他。。。
選擇特徵詞，很重要，要總結出符合某一型別的關鍵特徵詞
對分類器進行訓練，即傳入一些已經分好類的文章，讓分類器可以知道其中的一些特徵詞。
計算出特徵詞在各個分類中出現的概率。
為每個特徵詞設定權重值

計算整篇文件的概率，將每個特徵值的概率相乘，即求出了在某一分類條件下，這篇文章出現的概率P(Document|Category)
根據P(Document|Category)應用貝葉斯定理求出P(Category|Document)
判定文章所屬的分類

python程式碼實現

#-*_coding:utf8-*-
import jieba
from sqlite3 import dbapi2 as sqlite


#將傳入文件分詞，並去除重複和不必要的詞彙。
def getwords(doc):
    doc1 = list(jieba.cut(doc))
    words = []
    for s in doc1:
        if(len("".join(s))>1):
            if(s not in words):
                words.append(s)
    return words


class classifier:
    def __init__(self, getfeatures, filename='test1.db'):
        #記錄位於各分類中不同特徵值的數量
        self.fc = {}
        #統計每個分類中的文件數量（即各分類被使用的次數）
        self.cc = {}
        #從即將被歸類的內容項中提取特徵出來
        self.getfeatures = getfeatures
        #連結資料庫
        self.con = sqlite.connect(filename)
        self.con.execute('create table if not exists fc(feature,category,count)')
        self.con.execute('create table if not exists cc(category,count)')


    #增加對特徵/分類組合的計數值
    def incf(self,f,cat):
        count = self.fcount(f,cat)
        if(count==0):
            self.con.execute("insert into fc values ('%s','%s',1)" % (f,cat))
        else:
            self.con.execute("update fc set count=%d where feature='%s' and category='%s'" % (count+1,f,cat))

    #增加對某一分類的技術值
    def incc(self,cat):
        count = self.catcount(cat)
        if(count==0):
            self.con.execute("insert into cc values ('%s',1)" % (cat))
        else:
            self.con.execute("update cc set count=%d where category='%s'" % (count+1,cat))

    #某一特徵出現於某一分類的的次數
    def fcount(self,f,cat):
        res = self.con.execute("select count from fc where feature='%s' and category='%s'" % (f,cat)).fetchone()
        if(res==None):return 0
        else: return float(res[0])

    #某一種分類的內容項數量
    def catcount(self,cat):
        res = self.con.execute("select count from cc where category='%s'" % (cat)).fetchone()
        if(res==None):return 0
        else:return float(res[0])

    #所有內容向的數量
    def totalcount(self):
        res = self.con.execute("select sum(count) from cc").fetchone()
        if(res==None):return 0
        return res[0]

    #所有分類的列表
    def categories(self):
        cur = self.con.execute("select category from cc")
        return [d[0] for d in cur]

    #訓練
    def train(self,item,cat):
        features=self.getfeatures(item)
        #針對該分類為每一個特徵增加計數值
        for f in features:
            self.incf(f,cat)
        #增加針對該分類的計數值
        self.incc(cat)
        #向資料庫提交資料
        self.con.commit()

    #計算概率
    def fprob(self,f,cat):
        if self.catcount(cat)==0: return 0
        #特徵在分類總出現的總次數，除以分類中包含內容項的總數
        return self.fcount(f,cat)/self.catcount(cat)

    #加入概率的權重值
    def weightedprob(self,f,cat,prf,weight=1.0,ap=0.5):
        #計算當前的概率值
        basicprob=prf(f,cat)
        #統計特徵在所有分類中出現的次數
        totals = sum([self.fcount(f,c) for c in self.categories()])
        # print("所有次數：")
        # print(totals)
        #計算加權平均
        bp = ((weight*ap)+(totals*basicprob))/(weight+totals)
        return bp

    #最終的分類方法
    def classify(self,item,default=None):
        probs={}
        #尋找概率最大的分類
        max=0.0
        for cat in self.categories():
            probs[cat] = self.prob(item,cat)
            if probs[cat] > max:
                max = probs[cat]
                best = cat
        return best




#新建一個classifier的子類
class naivebayes(classifier):
    #提取特徵詞，並將所有單詞的概率相乘，以求出整體的概率。P(Document|Category)
    def docprob(self,item,cat):
        features = self.getfeatures(item)
        #將所有的特徵概率相乘
        p=1
        for f in features:p *= self.weightedprob(f,cat,self.fprob)
        return p

    #已知P(Document|Category)應用貝葉斯定理求出P(Category|Document)
    def prob(self,item,cat):
        catprob=self.catcount(cat)/self.totalcount()
        docprob = self.docprob(item,cat)
        return docprob * catprob

呼叫方法：

    import docClass
    cl = docClass.naivebayes(docClass.getwords)
    cl.train('訓練的文章1')
    cl.train('訓練的文章2')
    cl.train('...')
    cl.train('訓練的文章n')
    print(cl.classify('待分類的文章', default='unknow'))

ok，以上的程式碼就實現了貝葉斯的分類器，程式碼中用到了jieba分詞模組，sqlite嵌入式資料庫。

Python實現貝葉斯分類器

使用樸素貝葉斯分類器，對一片文章進行分類處理貝葉斯分類器的優缺點：優點：速度相對較快，因為針對每個分類的特徵詞不會太多演算法比較簡單可以動態的新增訓練資料集合分類的過程可以檢視缺點：無法處理基於特徵組合所產生的變化

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

Spark Mlib(六)用spark實現貝葉斯分類器

貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。下面是spark官網（http://spark.apache.org/docs/latest/mllib-naive-bayes.html）給出的例子 package alg import org.

模式識別三--MATLAB實現貝葉斯分類器

貝葉斯分類器的分類原理是通過某物件的先驗概率，利用貝葉斯公式計算出其後驗概率，即該物件屬於某一類的概率，選擇具有最大後驗概率的類作為該物件所屬的類。也就是說，貝葉斯分類器是最小錯誤率意義上的優化，它遵循“多數佔優”這一基本原則。一、分類器的基本概念經過了一個階段的模式識別學習，對於模式和模式類的概念有一

Python 樸素貝葉斯分類器

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', '

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。好瓜有8個，壞瓜有9個屬性色澤，根蒂，敲聲，因為是離散屬性，根據公式（7.17） P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

分類——樸素貝葉斯分類器以及Python實現

核心思想：根據訓練資料獲取模型的後驗概率，對應後驗概率越大的類即預測類。演算法簡介：模型：先驗概率：p(y=Ck)p(y=Ck) 條件概率：p(X=x|y=Ck)p(X=x|y=Ck) 後驗概率：p(y=Ck|X=x)p(y=Ck|X=

機器學習實戰——python實現簡單的樸素貝葉斯分類器

樸素貝葉斯分類器（Python實現）

基本思想：樸素貝葉斯分類器，在當給出了特徵向量w情況下，分類為ci的條件概率p(ci | w)。利用貝葉斯公式：p(ci | w) = p(w | ci) * p(ci) / p(w)，可以完成轉化，觀察公式可以發現分母p(w)都一樣，所以只要比較分子的

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- ''' 樸素貝葉斯演算法 ''' from __future__ import division global className className = "class" def calc_class(trai

貝葉斯分類器(Python實現+詳細完整原始碼和原理)

在概率和統計學領域，貝葉斯理論基於對某一事件證據的認識來預測該事件的發生概率，由結果推測原因的概率大小首先，理解這個公式的前提是理解條件概率，因此先複習條件概率。 P(A|B)=P(AB)/P(B) 貝葉斯公式：在機器學習領域，貝葉斯分類器是基於貝葉斯

貝葉斯篇：貝葉斯的概率推到，樸素貝葉斯分類器及Python實現

在瞭解貝葉演算法前：要有一定的概率與數理統計基礎以及注意事項條件概率首先，理解這兩個公式的前提是理解條件概率，因此先複習條件概率。 P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B) 那麼由條件概率出發，看一下變形出來的乘法公式：

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

樸素貝葉斯分類器：MATLAB工具箱實現

MATLAB工具箱的statistic toolbox中有naivebayes的類，可以直接使用。使用預設的高斯分佈和混淆矩陣： >> load fisheriris >> O1 = fitNaiveBayes(meas,species); 生成

貝葉斯分類器（含MATLAB實現）

由於被測試的模式特徵向量通常存在隨機性，所獲得的模式樣本有一定的統計分佈。因此，採用統計決策的理論方法進行模式分類是常用的模式識別方法。這也是遙感影象土地分類的常用方法。統計決策函式以貝葉斯定理為基礎，一般需要滿足兩個基本條件： 1）已知模式向量的有關概率分佈先驗知識，如先

第七章　貝葉斯分類器的推導及實現

貝葉斯分類器 1.基本的概率論知識先驗概率:由以往的資料得到的後驗概率:得到資訊後再重新加以修正的概率 R(ci∣x)=∑j=1NλijP(cj∣x)R(ci∣x)=∑j=1NλijP(cj∣x) 對於每個樣本　xx　選擇

Python實現貝葉斯分類器

貝葉斯分類器的優缺點：

優點：

缺點：

貝葉斯—文字分類的步驟：

python程式碼實現

相關推薦