拉普拉斯修正的樸素貝葉斯分類器及AODE分類器

阿新 • • 發佈：2019-02-02

下面的一些原理來著周志華老師的西瓜書。

***************************************************************************************************************

拉普拉斯修正的樸素貝葉斯分類器主要目的是為了避免遇到某些特徵屬性為空時，使得相關後驗概率為0的情況。其相關計算公式如下：

其中Dc表示訓練集中第c類樣本的集合，P(c)表示c類的先驗概率，N表示標籤的類別數；Dc，xi表示第i個屬性上位屬性xi的集合，Ni表示第i個屬性的類別數。

判別函式如下（公式1）：

AODE是一種基於整合學習機制、更為強大的獨依賴分類器，為半樸素貝葉斯分類器。其相關的計算公式如下：

通過以上的兩個關鍵函式1和2，判斷各個關鍵概率的大小來判斷類別。當連乘過小的時候，可採用開方或者取對數的方式。

使用的資料如下：
編號	色澤	根蒂	敲聲	紋理	臍部	觸感	密度	含糖量	好瓜
1	青綠	蜷縮	濁響	清晰	凹陷	硬滑	0.697	0.46	是
2	烏黑	蜷縮	沉悶	清晰	凹陷	硬滑	0.774	0.376	是
3	烏黑	蜷縮	濁響	清晰	凹陷	硬滑	0.634	0.264	是
4	青綠	蜷縮	沉悶	清晰	凹陷	硬滑	0.608	0.318	是
5	淺白	蜷縮	濁響	清晰	凹陷	硬滑	0.556	0.215	是
6	青綠	稍蜷	濁響	清晰	稍凹	軟粘	0.403	0.237	是
7	烏黑	稍蜷	濁響	稍糊	稍凹	軟粘	0.481	0.149	是
8	烏黑	稍蜷	濁響	清晰	稍凹	硬滑	0.437	0.211	是
9	烏黑	稍蜷	沉悶	稍糊	稍凹	硬滑	0.666	0.091	否
10	青綠	硬挺	清脆	清晰	平坦	軟粘	0.243	0.267	否
11	淺白	硬挺	清脆	模糊	平坦	硬滑	0.245	0.057	否
12	淺白	蜷縮	濁響	模糊	平坦	軟粘	0.343	0.099	否
13	青綠	稍蜷	濁響	稍糊	凹陷	硬滑	0.639	0.161	否
14	淺白	稍蜷	沉悶	稍糊	凹陷	硬滑	0.657	0.198	否
15	烏黑	稍蜷	濁響	清晰	稍凹	軟粘	0.36	0.37	否
16	淺白	蜷縮	濁響	模糊	平坦	硬滑	0.593	0.042	否
17	青綠	蜷縮	沉悶	稍糊	稍凹	硬滑	0.719	0.103	否

# -*- coding: utf-8 -*-
"""
Created on Wed Jan  4 21:05:48 2017

@author: ZQ
"""

import numpy as np
from math import pi as PI


def loadData(filename):
    file = open(filename)
    lines = file.readlines()
    data = []
    for line in lines[1:]:
        d = line.strip().split('\t')
        d = d[1:]
        data.append(d)
    return np.array(data)

#所有計算採用拉普拉斯修正，樸素貝葉斯分類   
#計算先驗概率
def calcpro(data):
    data_count = len(data)
    s_l = set(data[:,-1])
    N = len(s_l)
    yes_count = 0
    for vec in data:
        if vec[-1] == '是':
            yes_count += 1
    return (yes_count+1)/(data_count+N)

#用於計算標籤的條件概率
def calcLabelpro(data,i,value):
    data_yes_len = 0
    fec_yes = 0
    fec_no = 0
    s_f = set(data[:,i])
    Ni = len(s_f)
    for vec in data:
        if vec[-1] == '是':
            data_yes_len += 1
        if vec[i] == value:            
            if vec[-1] == '是':
                fec_yes += 1
            else:
                fec_no += 1
    #print(fec_yes,fec_no,data_yes_len)
    return (fec_yes+1)/(data_yes_len+Ni),(fec_no+1)/(len(data)-data_yes_len+Ni)

#高斯概率密度
def gass(x,u,d):
    pro = (2*PI)**0.5*d**0.5
    pro = 1/pro
    pro = pro*np.exp(-(x-u)**2/(2*d))
    return pro
#用於計算連續數值的概率密度
def calcNumpro(data,i,value):
    data_yes = []
    data_no = []
    for vec in data:
        if vec[-1] == '是':
            data_yes.append(vec[i])
        else:
            data_no.append(vec[i])
            
    num_yes = list(map(float,data_yes))
    num_no = list(map(float,data_no))
    num_yes = np.array(num_yes)
    num_no = np.array(num_no)
    #print(num_yes.mean(),num_yes.var()**0.5)
    #計算均值與方差
    mean_yes = num_yes.mean()
    var_yes = num_yes.var()
    mean_no = num_no.mean()
    var_no = num_no.var()
    
    pro_yes = gass(value,mean_yes,var_yes)
    pro_no = gass(value,mean_no,var_no)
    
    return pro_yes,pro_no

def Bayes(train_data,test_data):
    #獲得先驗概率
    pro_yes = calcpro(train_data)
    pro_no = 1 - pro_yes
    for i in range(len(test_data)-1):
        if i < 6:
           py,pn = calcLabelpro(data,i,test_data[i])
           pro_yes = pro_yes*py
           pro_no = pro_no*pn
        else:
            py,pn = calcNumpro(data,i,float(test_data[i]))
            pro_yes = pro_yes*py
            pro_no = pro_no*pn
    if pro_yes > pro_no:
        print('是')
    else:
        print('否')
    print(test_data[-1])
    
#AODE分類器，未實現連續屬性(使用每個屬性作為超父來構建SPODE)
#首先計算P(C,Xi)
def calcP_C_Xi(data,i,value):
    D = len(data)
    label_set = set(data[:,-1])
    N = len(label_set)
    i_set = set(data[:,i])
    Ni = len(i_set)
    Xi_yes_count = 0
    Xi_no_count = 0
    for vec in data:
        if vec[i] == value:
            if vec[-1] == '是':
                Xi_yes_count += 1
            else:
                Xi_no_count += 1
    P_y = (Xi_yes_count+1)/(D + N*Ni)
    P_n = (Xi_no_count+1)/(D + N*Ni)
    return P_y,P_n
#其次計算P(Xj|C,Xi)
def calcP_Xj_C_Xi(data,j,i,value_j,value):
    j_set = set(data[:,j])
    Nj = len(j_set)
    Xi_y_count = 0
    Xi_n_count = 0
    Xij_y_count = 0
    Xij_n_count = 0
    for vec in data:
        if vec[i] == value:
            if vec[-1] == '是':
                Xi_y_count += 1
            else:
                Xi_n_count += 1
            if vec[j] == value_j:
                if vec[-1] == '是':
                    Xij_y_count += 1
                else:
                    Xij_n_count += 1
    p_y = (Xij_y_count + 1)/(Xi_y_count + Nj)
    p_n = (Xij_n_count + 1)/(Xi_n_count + Nj)
    return p_y,p_n
def AODE(train_data,test_data):
    p_y_list = []
    p_n_list = []
    p_y = 1
    p_n = 1
    for i in range(6):
        P_c_Xi_y,P_c_Xi_n = calcP_C_Xi(data,i,test_data[i])
        for j in range(6):            
            P_c_Xji_y,P_c_Xji_n = calcP_Xj_C_Xi(data,j,i,test_data[j],test_data[i])
            p_y = p_y * P_c_Xji_y
            p_n = p_n * P_c_Xji_n
        p_y_list.append(p_y*P_c_Xi_y)
        p_n_list.append(p_n*P_c_Xi_n)
    if sum(p_y_list) > sum(p_n_list):
        print('是')
    else:
        print('否')
    print(test_data[-1])

if __name__ == '__main__':
    data = loadData('watermelon3.0.txt')
    test_data = data[3,:]
    Bayes(data,test_data)
    AODE(data,test_data)

利用sklearn 樸素貝葉斯進行評論短語的分類

功能：對評論短語，比如一個文章下的評論短語進行分類通過或者刪除，也就是是垃圾、不是垃圾。工具： Spyder，jieba分詞，numpy，joblib，sklearn 程式： # -*- coding: utf-8 -*- """ Created on Mon May 14 10

【機器學習--樸素貝葉斯與SVM進行病情分類預測】

貝葉斯定理由英國數學家托馬斯.貝葉斯（Thomas Baves）在1763提出，因此得名貝葉斯定理。貝葉斯定理也稱貝葉斯推理，是關於隨機事件的條件概率的一則定理。對於兩個事件A和B，事件A發生則B也發生的概率記為P(B|A)，事件B發生則A也發生的概率記為P

樸素貝葉斯演算法應用——垃圾簡訊分類

理解貝葉斯公式其實就只要掌握：1、條件概率的定義；2、乘法原理 P (

基於樸素貝葉斯算法的情感分類

set 求最大值記錄變焦 def ... rop ros 結果環境 win8, python3.7, jupyter notebook 正文什麽是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opi

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

樸素貝葉斯應用：垃圾郵件分類

import nltk nltk.download() from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #預處理 def preprocessing(text): tokens

樸素貝葉斯應用：垃圾郵件分類(更新)

#讀取資料集 import csv file_path=r'jiangnan.txt' sms=open(file_path,'r',encoding='utf-8') sms_data=[] sms_label=[] text=csv.reader(sms,delimiter='\t') text

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

ati int ces 平滑讀取 inf dict http tor 實現本文的文本數據可以在THUCTC下載也可以自己手動爬蟲生成，本文主要參考：https://blog.csdn.net/hao5335156/article/details/82716923 nb表

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

樸素貝葉斯（Naive Bayes）分類和Gaussian naive Bayes

樸素貝葉斯（Naive Bayes）參考資料：https://www.cnblogs.com/pinard/p/6069267.html 樸素貝葉斯最關鍵的就是（強制認為每種指標都是獨立的）。不同於其它分類器，樸素貝葉斯是一種基於概率理論的分類

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

邏輯迴歸和樸素貝葉斯演算法實現二值分類（matlab程式碼）

資料簡介：共有306組資料，每組資料有三個屬性(x1,x2,x2)，屬於0類或者1類。資料序號末尾為1的是測試集，有31組；其他的作為訓練集，有275組。 clear clc load('

用樸素貝葉斯對wine資料集分類

該實驗的資料集是MostPopular Data Sets（hits since 2007）中的wine資料集，這是是對在義大利同一地區生產的三種不同品種的酒，做大量分析所得出的資料。這些資料包括了三種酒中13種不同成分的數量。經過幾天對資料集以及分類演算法的研究，詳細研

檢測使用者命令序列異常——使用LSTM分類演算法【使用樸素貝葉斯，類似垃圾郵件分類的做法也可以，將命令序列看成是垃圾郵件】

# -*- coding:utf-8 -*- import sys import re import numpy as np import nltk import csv import matplotlib.pyplot as plt from nltk.probability import Fre

我的第一篇學習筆記——使用樸素貝葉斯演算法對文件分類詳解

樸素貝葉斯演算法可以實現對文件的分類，其中最著名的應用之一就是過濾垃圾郵件。先做一個簡單的分類，以論壇的留言為例，構建一個快速的過濾器，來區分哪些留言是負面言論，哪些是正面言論。我對演算法思路的理解：首先計算訓練集中每個詞語分別在正面（負面）文件中出現的概率以及正面（負面

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

''' @description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法演算法優點： a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率 b 對缺失的資料不太敏感，演算法也比較簡

基於Python3.6編寫的jieba分片語件+Scikit-Learn庫+樸素貝葉斯演算法小型中文自動分類程式

實驗主題：大規模數字化（中文）資訊資源資訊組織所包含的基本流程以及各個環節執行的任務。本文所採用的分類及程式框架主要參考了這篇部落格基本流程：如下圖所示，和資訊資源資訊組織的基本流程類似，大規模數字化（中文）資訊資源組織的基本流程也如下：1資訊資源的預處理、2資訊外部特徵描述

樸素貝葉斯演算法原理及Scala實現

樸素貝葉斯分類器基於一個簡單的假定：給定目標值時屬性之間相互條件獨立。 P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document) 更多學習其理論可以參看：

寫程式學ML：樸素貝葉斯演算法原理及實現（一）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 1、樸素貝葉斯演算法的原理樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。和決策樹模型相比，樸素貝葉斯

樸素貝葉斯演算法學習及程式碼示例

最近工作中涉及到文字分類問題，於是就簡單的看了一下樸素貝葉斯演算法（Naive Bayes），以前對該演算法僅僅停留在概念上的瞭解，這次系統的查閱資料學習了一下。樸素貝葉斯演算法以貝葉斯

拉普拉斯修正的樸素貝葉斯分類器及AODE分類器

相關推薦