樸素貝葉斯分類Python演示

阿新 • • 發佈：2019-01-08

# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
 
'''
樸素貝葉斯分類器的原理
 
事件H的先驗概率P(H)，即無條件概率
事件H在X發生時的後驗概率P(H|X)
 
這裡面H通常是指某一個分類
X是指樣本事件
P(H|X)就表示在樣本X發生的情況下，分類H的概率
假設有N個分類H1到HN，那麼P(Hi|X)最大的分類就是我們要找的，假設是Hk
因為在X發生的情況下，Hk發生的概率最大
 
P(H|X) = [P(X|H)*P(H)]/P(X)
 
分類器的構造
條件如下
1.每個元組有N個屬性 X = ｛x1 , x2 , ... , xn｝，分別對應屬性｛A1 ... An｝，並且屬性之間相互獨立
2.當前有M個訓練元組，並且知道它們的分類標號
3.一共有K個分類C1 ... Ck，並且知道每個分類的先驗概率，如果不知道則擬定其為1/K
 
問題是
對於任意給定的新的元組Xgive，確定其分類Cget，使得P(Cget|Xgive)最大（相對於其它分類）
 
解析
P(Ci|X) = [P(X|Ci)*P(Ci)]/P(X)
對於所有的分類｛C｝，P(X)是不變的（其實是未知的），為了使P(Ci|X)最大，
只需要使P(X|Ci)*P(Ci)最大
如果P(Ci)取1/K，則只要使P(X|Ci)最大
由於X = ｛x1 , x2 , ... , xn｝，分別對應屬性｛A1 ... An｝，並且各個屬性之間沒有關聯
則P(X|Ci)*P(Ci) = P(x1|Ci)*P(x2|Ci)*...*P(xn|Ci) * P(Ci)
 
P(xi|Ci)由訓練元組得到
分為兩種情況
如果Ai為離散值，則P(xi|Ci)等於【屬於Ci的訓練元組中，Ai=xi的元組個數】/【屬於Ci的元組總數】
如果Ai為連續值，則假定Ci中的Ai服從高斯分佈，計算出高斯分佈的引數，分別為平均值和標準差
P(xi|Ci)等於xi處的概率密度
 
'''
 
 
'''
問題一：訓練元組從何而來？
 
'''
 
#載入訓練資料
#檔案格式：屬性標號，是否連續【yes|no】，屬性說明
attribute_file_dest = 'F:\\bayes_categorize\\attribute.dat'
attribute_file = open(attribute_file_dest)
 
#檔案格式：rec_id,attr1_value,attr2_value,...，attrn_value,class_id
trainning_data_file_dest = 'F:\\bayes_categorize\\trainning_data.dat'
trainning_data_file = open(trainning_data_file_dest)
 
#檔案格式：class_id,class_desc
class_desc_file_dest = 'F:\\bayes_categorize\\class_desc.dat'
class_desc_file = open(class_desc_file_dest)
 
 
attr_dict = {}
for line in attribute_file :
    line = line.strip()
    fld_list = line.split(',')
    attr_dict[int(fld_list[0])] = tuple(fld_list[1:])
 
class_dict = {}
for line in class_desc_file :
    line = line.strip()
    fld_list = line.split(',')
    class_dict[int(fld_list[0])] = fld_list[1]
    
trainning_data_dict = {}
class_member_set_dict = {}
for line in trainning_data_file :
    line = line.strip()
    fld_list = line.split(',')
    rec_id = int(fld_list[0])
    a1 = int(fld_list[1])
    a2 = int(fld_list[2])
    a3 = float(fld_list[3])
    c_id = int(fld_list[4])
    
    if c_id not in class_member_set_dict :
        class_member_set_dict[c_id] = set()
    class_member_set_dict[c_id].add(rec_id)
    trainning_data_dict[rec_id] = (a1 , a2 , a3)
    
attribute_file.close()
class_desc_file.close()
trainning_data_file.close()
 
class_possibility_dict = {}
for c_id in class_member_set_dict :
    class_possibility_dict[c_id] = (len(class_member_set_dict[c_id]) + 0.0)/len(trainning_data_dict)    
 
#等待分類的資料
data_to_classify_file_dest = 'F:\\bayes_categorize\\trainning_data_new.dat'
data_to_classify_file = open(data_to_classify_file_dest)
data_to_classify_dict = {}
for line in data_to_classify_file :
    line = line.strip()
    fld_list = line.split(',')
    rec_id = int(fld_list[0])
    a1 = int(fld_list[1])
    a2 = int(fld_list[2])
    a3 = float(fld_list[3])
    c_id = int(fld_list[4])
    data_to_classify_dict[rec_id] = (a1 , a2 , a3 , c_id)
data_to_classify_file.close()
 
 
diff_cnt = 0
#對於每一個待分類元組，對於每一個分類計算P(X|Ci)*P(Ci)，尋找取得最大值的分類
for rec_id in data_to_classify_dict :
    
    res_class_id = 0
    max_P_X_Ci = 0.0
    a1_x1 = data_to_classify_dict[rec_id][0]
    a2_x2 = data_to_classify_dict[rec_id][1]
    a3_x3 = data_to_classify_dict[rec_id][2]
    for c_id in class_possibility_dict :
        P_Ci = class_possibility_dict[c_id]
        #求P_x1_Ci
        cnt_Ci = len(class_member_set_dict[c_id])
        cnt_x1_Ci = len([tmp_rec_id for tmp_rec_id in trainning_data_dict \
        if trainning_data_dict[tmp_rec_id][0] == a1_x1 and tmp_rec_id in class_member_set_dict[c_id]])
        P_x1_Ci = (cnt_x1_Ci + 0.0) / cnt_Ci
        #求P_x2_Ci
        cnt_Ci = len(class_member_set_dict[c_id])
        cnt_x2_Ci = len([tmp_rec_id for tmp_rec_id in trainning_data_dict \
        if trainning_data_dict[tmp_rec_id][1] == a2_x2 and tmp_rec_id in class_member_set_dict[c_id]])
        P_x2_Ci = (cnt_x2_Ci + 0.0) / cnt_Ci
        #求P_x3_Ci
        #按正態分佈處理，取標準差和平均值
        a3_data = [ trainning_data_dict[tmp_rec_id][2] for tmp_rec_id in trainning_data_dict \
        if tmp_rec_id in class_member_set_dict[c_id] ]
        a3_std_err = np.sqrt(np.var(a3_data))
        a3_mean = np.mean(a3_data)
        P_x3_Ci = mlab.normpdf(a3_x3 , a3_mean , a3_std_err )
        
        res = P_x1_Ci * P_x2_Ci * P_x3_Ci * P_Ci
        if res > max_P_X_Ci :
            max_P_X_Ci = res
            res_class_id = c_id
        
    if res_class_id == 0 :
        print 'error 2'
    
    if res_class_id != data_to_classify_dict[rec_id][3] :
        print 'different'
        print res_class_id
        print data_to_classify_dict[rec_id]
        diff_cnt += 1
 
print diff_cnt        
        
        
產生測試資料的指令碼：
# -*- coding: utf-8 -*-
import numpy as np
from random import random as rdn
 
#attr : a1 離【1 -- 10 】, a2 離【1 -- 10 】, a3 連【1 -- 100】正態分佈
 
#class : c1 , c2 , c3 , c4 , c5 , c6 , c7 , c8
 
#data : 1 - 1000
 
'''
c1 : a1[1 - 3] a2[4 - 10] a3[<= 50]
c2 : a1[1 - 3] a2[4 - 10] a3[> 50]
c3 : a1[1 - 3] a2[1 - 3] a3[> 30]
c4 : a1[1 - 3] a2[1 - 3] a3[<= 30]
c5 : a1[4 - 10] a2[4 - 10] a3[<= 50]
c6 : a1[4 - 10] a2[4 - 10] a3[> 50]
c7 : a1[4 - 10] a2[1 - 3] a3[> 30]
c8 : a1[4 - 10] a2[1 - 3] a3[<= 30]
'''
 
 
data_file = open('F:\\bayes_categorize\\trainning_data_new.dat' , 'w')
a3_data = np.random.randn(1000 ) * 30 + 50
 
for i in range(1 , 1001 ) :
    rec_id = i
    a1 = int(rdn()*10) + 1
    if a1 > 10 :
        a1 = 10
        
    a2 = int(rdn()*10) + 1
    if a2 > 10 :
        a2 = 10
       
    a3 = a3_data[i-1]
    
    c_id = 0
    if a1 <= 3 and a2 >= 4 and a3 <= 50 :
        c_id = 1
    elif a1 <= 3 and a2 >= 4 and a3 > 50 :
        c_id = 2
    elif a1 <= 3 and a2 < 4 and a3 > 30 :
        c_id = 3
    elif a1 <= 3 and a2 < 4 and a3 <= 30 :
        c_id = 4
    elif a1 > 3 and a2 >= 4 and a3 <= 50 :
        c_id = 5
    elif a1 > 3 and a2 >= 4 and a3 > 50 :
        c_id = 6
    elif a1 > 3 and a2 < 4 and a3 > 30 :
        c_id = 7
    elif a1 > 3 and a2 < 4 and a3 <= 30 :
        c_id = 8
    else :
        print 'error'
        
    str_line = str(rec_id) + ',' + str(a1) + ',' + str(a2) + ','  + str(a3) + ',' + str(c_id) + '\n'
    data_file.write(str_line)
data_file.close()
 
配置檔案：
1,no,
2,no,
3,yes,

樸素貝葉斯分類Python演示

# -*- coding: utf-8 -*- import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt ''' 樸素貝葉斯分類器的原理事件H的先驗概率P(H

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

樸素貝葉斯分類演算法python實現

1 #==================================== 2 # 輸入: 3 # 空 4 # 輸出: 5 # postingList: 文件列表 6 # classVec: 分類標籤列表 7 #===

樸素貝葉斯分類文字 python實現

樸素貝葉斯（naive bayes）模型主要用於文字分類，比如要將郵件分類為正常郵件和帶侮辱性詞彙郵件對於一封郵件來說其特徵可以表示為該郵件中單詞出現的情況。比如我們有一個5000個詞的詞典表，那麼郵件的特徵可表示成一個特徵向量，特徵向量的維數等於詞典表的單詞個數，特徵

分類——樸素貝葉斯分類器以及Python實現

核心思想：根據訓練資料獲取模型的後驗概率，對應後驗概率越大的類即預測類。演算法簡介：模型：先驗概率：p(y=Ck)p(y=Ck) 條件概率：p(X=x|y=Ck)p(X=x|y=Ck) 後驗概率：p(y=Ck|X=x)p(y=Ck|X=

Python機器學習與實戰筆記之樸素貝葉斯分類

1聯合概率分佈 p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假設條件獨立拆分成兩個事件的乘積 2基本假設條件獨立性 3利用貝葉斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(

機器學習實戰——python實現簡單的樸素貝葉斯分類器

樸素貝葉斯分類的Python實現

貝葉斯定理：條件概率：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。基本求解公式：貝葉斯定理：樸素貝葉斯分類：基於假定：給定目標值時屬性之間相互

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

樸素貝葉斯分類演算法Python程式碼

貝葉斯分類器就是求P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn) 最大值，由於 P(F1F2...Fn) 對於所有的類別都是相同的，可以省略，問題就變成了求 P(F1F2...Fn|C)P(C) 的最大值。樸素貝葉斯分類

樸素貝葉斯分類器（Python實現）

基本思想：樸素貝葉斯分類器，在當給出了特徵向量w情況下，分類為ci的條件概率p(ci | w)。利用貝葉斯公式：p(ci | w) = p(w | ci) * p(ci) / p(w)，可以完成轉化，觀察公式可以發現分母p(w)都一樣，所以只要比較分子的

樸素貝葉斯分類原理及Python實現簡單文字分類

貝葉斯定理：這個定理解決了現實生活裡經常遇到的問題：已知某條件概率，如何得到兩個事件交換後的概率，也就是在已知P(A|B)的情況下如何求得P(B|A)。這裡先解釋什麼是條件概率：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。

樸素貝葉斯分類演算法的Python實現

貝葉斯分類演算法以貝葉斯定理為基礎，通過先驗概率計算後驗概率，再由最大厚顏概率決定分類（同學們還是當沒看到過這句話吧）。數學學得不咋地，就多說了，實驗報告怎麼寫也是頭疼，就直接貼程式碼了。 # 訓

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- ''' 樸素貝葉斯演算法 ''' from __future__ import division global className className = "class" def calc_class(trai

Python 樸素貝葉斯分類器

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', '

【樸素貝葉斯分類】原理及python程式示例

1、基本原理 1.1 貝葉斯公式有訓練集T={(x1,y1),(x2,y2)……,(xn,yn)},由P(X,Y)獨立同分布產生。X為輸入空間，即樣本的屬性。Y為輸出空間，即樣本的分類結果，設有

python機器學習庫sklearn——樸素貝葉斯分類器

在scikit-learn中，一共有3個樸素貝葉斯的分類演算法類。分別是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先驗為高斯分佈的樸素貝葉斯，MultinomialNB就是先驗為多項式分佈的樸素

樸素貝葉斯分類Python演示

相關推薦