機器學習實戰——樸素貝葉斯分類

阿新 • • 發佈：2019-02-04

準備資料：從文字中構建詞向量

前期測試函式用的資料

def loadDataSet():
    '''建立一些實驗樣本'''
    postingList = [['my','dog','has','flea','problems','help','please'],
                  ['maybe','not','take','him','to','dog','park','stupid'],
                  ['my','dalmation','is','so','cute','I','love','him'],
                  ['stop' 
,'posting','stupid','worthless','garbage'],
                  ['mr','licks','ate','my','steak','how','to','stop','him'],
                  ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]  #0代表正常言論   1表示侮辱性
    return postingList,classVec

def createVocabList(dataSet): 

    '''返回一個包含所有文件中出現的不重複的詞條集合'''
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)   #建立兩個集合的並集
    return list(vocabSet)

詞表向向量的轉換函式

def setOfWords2Vec(vocabList,inputSet):
    '''接受詞彙表和某個文件，返回該文件向量'''
    returnVec = [0]*len(vocabList)
    for word in 
 inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word:{} is not in my Vocabulary".format(word))
    return returnVec

測試上述

listOPosts,listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
myVocabList

['so',
 'buying',
 'please',
 'has',
 'dalmation',
 'my',
 'cute',
 'quit',
 'love',
 'stupid',
 'park',
 'not',
 'how',
 'flea',
 'problems',
 'licks',
 'food',
 'stop',
 'help',
 'him',
 'ate',
 'maybe',
 'take',
 'I',
 'worthless',
 'to',
 'steak',
 'mr',
 'is',
 'garbage',
 'posting',
 'dog']

setOfWords2Vec(myVocabList,listOPosts[0])

[0,
 0,
 1,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1]

訓練演算法：從詞向量計算概率

樸素貝葉斯分類器訓練資料

from numpy import *

def trainNB0(trainMatrix,trainCategory):
    '''輸入文件矩陣，每篇文件類別構成的向量
    返回兩個向量[元素是各個詞條的條件概率P（Wi | C1) ,其中i=1,2,...,詞條數]和一個先驗概率'''
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)   #類別中侮辱性對應1，它的先驗概率（若非二分問題此處修改）
    #p0Num = zeros(numWords);p1Num = zeros(numWords)
    #p0Denom = 0.0;p1denom = 0.0           #初始化概率
    p0Num = ones(numWords);p1Num = ones(numWords)
    p0Denom = 2.0;p1denom = 2.0            #初始化概率,拉普拉斯平滑，避免出現0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #p1Vect = p1Num/p1denom
    #p0Vect = p0Num/p0Denom
    p1Vect = log(p1Num/p1denom)        #對乘積取自然對數，解決乘積很小時出現下溢位
    p0Vect = log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

測試上述

trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList,postinDoc))

p0v,p1v,pAb = trainNB0(trainMat,listClasses)

pAb

0.5

p0v

array([-2.56494936, -3.25809654, -2.56494936, -2.56494936, -2.56494936,
       -1.87180218, -2.56494936, -3.25809654, -2.56494936, -3.25809654,
       -3.25809654, -3.25809654, -2.56494936, -2.56494936, -2.56494936,
       -2.56494936, -3.25809654, -2.56494936, -2.56494936, -2.15948425,
       -2.56494936, -3.25809654, -3.25809654, -2.56494936, -3.25809654,
       -2.56494936, -2.56494936, -2.56494936, -2.56494936, -3.25809654,
       -3.25809654, -2.56494936])

p1v

array([-3.04452244, -2.35137526, -3.04452244, -3.04452244, -3.04452244,
       -3.04452244, -3.04452244, -2.35137526, -3.04452244, -1.65822808,
       -2.35137526, -2.35137526, -3.04452244, -3.04452244, -3.04452244,
       -3.04452244, -2.35137526, -2.35137526, -3.04452244, -2.35137526,
       -3.04452244, -2.35137526, -2.35137526, -3.04452244, -1.94591015,
       -2.35137526, -3.04452244, -3.04452244, -3.04452244, -2.35137526,
       -2.35137526, -1.94591015])

測試演算法：

樸素貝葉斯分類函式

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    '''輸入要分類的向量，及訓練得到的引數
       返回分類'''
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)   #元素相乘，此處相加是由於取對數了，而且vec2Classify的元素是0，1，從而對p1Vec和p0Vec
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)  #進行了篩選（0乘上去為0），即只用樣例出現的各個獨立條件概率（訓練得到的引數）
    if p1 > p0:
        return 1
    else:
        return 0

測試

testEntry = ['love','my','dalmation']
thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
print("{0}classified as:{1}".format(testEntry,classifyNB(thisDoc,p0v,p1v,pAb)))
testEntry = ['stupid','garbage']
thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
print("{0}classified as:{1}".format(testEntry,classifyNB(thisDoc,p0v,p1v,pAb)))

['love', 'my', 'dalmation']classified as:0
['stupid', 'garbage']classified as:1

使用詞袋模型

詞集模型是上面函式setOfWords2Vec()實現的，而詞袋模型是每個單詞可以出現多次

def bagOfWords2VecMN(vocabList,inputSet):
    '''接受詞彙表和某個文件，返回該文件向量'''
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

示例一：使用樸素貝葉斯過濾垃圾郵件

準備資料，檔案解析，從文字文件中構建自己的詞列表

def textParse(bigString):
    '''文字檔案解析，返回字串列表'''
    import re
    listOfTokens = re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

對垃圾郵件進行自動化處理

def spamTest():
    docList = [];classList = [];fullText = []
    for i in range(1,26):
        #匯入並解析檔案
        wordList = textParse(open('E:\DataMining\Project\MLBook\機器學習實戰原始碼\machinelearninginaction\Ch04\email\spam\{}.txt'.
                                  format(i)).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('E:\DataMining\Project\MLBook\機器學習實戰原始碼\machinelearninginaction\Ch04\email\ham\{}.txt'.
                                  format(i),encoding='gb18030',errors='ignore').read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)  #返回所有文件中不重複的詞集
    trainingSet = list(range(50));testSet = []
    for i in range(10):
        #隨機構建訓練集
        randomIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randomIndex])
        del(trainingSet[randomIndex])
    trainMat = [];trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0v,p1v,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        #對測試集分類
        wordVector = setOfWords2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0v,p1v,pSpam) != classList[docIndex]:
            errorCount += 1
    print("the error rate is {}".format(float(errorCount)/len(testSet)))
    return float(errorCount)/len(testSet)

重複10次取錯誤率均值

errorPercent = 0.0
for i in range(10):
    errorPercent += spamTest()
print("the average error persent is : {}%".format(errorPercent/10 * 100))

E:\Anaconda3\lib\re.py:212: FutureWarning: split() requires a non-empty pattern match.
  return _compile(pattern, flags).split(string, maxsplit)


the error rate is 0.1
the error rate is 0.0
the error rate is 0.0
the error rate is 0.2
the error rate is 0.0
the error rate is 0.0
the error rate is 0.1
the error rate is 0.1
the error rate is 0.0
the error rate is 0.0
the average error persent is : 5.0%

示例二：使用樸素貝葉斯分類器從當地新聞中獲取所屬區域

這裡只是運用以下該分類器，找到高頻詞，如果真的要分析，其實要用停詞，詞性分析等

基於：使用RSS源閱讀程式庫：feedparser

def calcMostFreq(vocabList,fullText):
    '''遍歷詞彙表中的每個詞並統計在文字出現次數
       返回排序最高的30個單詞'''
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    sortedFreq = sorted(freqDict.items(),key=operator.itemgetter(1),reverse=True)
    return sortedFreq[:30]

RSS源分類器函式

def localWords(feed1,feed0):
    '''輸入兩個RSS源'''
    import feedparser   #使用RSS源閱讀程式庫
    docList = [];classList = [];fullText = []
    minLen = min(len(feed1['entries']),len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList,fullText)
    for pairW in top30Words:
        #去掉出現次數最高的那些詞
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    trainingSet = list(range(2*minLen));testSet = []
    #print("minLen is : {}".format(minLen))
    for i in range (20):
        randIndex = int(random.uniform(0,len(trainingSet)))
        #print("randIndex is : {}".format(randIndex))
        testSet.append(trainingSet[randIndex])
        del (trainingSet[randIndex])
    trainMat = [];trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])   #使用詞袋模型
    p0v,p1v,pSpam = trainNB0(array(trainMat),array(trainClasses))    #開始訓練
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0v,p1v,pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is : {}'.format(float(errorCount)/len(testSet)))
    return vocabList,p0v,p1v

匯入RSS源測試

import feedparser
ny = feedparser.parse('https://newyork.craigslist.org/d/activity-partners/search/act?format=rss')
sf = feedparser.parse('https://sfbay.craigslist.org/d/activity-partners/search/act?format=rss')    #它的內容是不斷變化的
vocabList,pSF,pNY = localWords(ny,sf)

the error rate is : 0.35


E:\Anaconda3\lib\re.py:212: FutureWarning: split() requires a non-empty pattern match.
  return _compile(pattern, flags).split(string, maxsplit)

分析資料：顯示最近（我測試時）兩地新聞相關用詞

def getTopWords(ny,sf):
    import operator
    vocabList,p0v,p1v = localWords(ny,sf)
    topNY = [];topSF = []
    for i in range(len(p0v)):
        if p0v[i] > -5.0 : 
            topSF.append((vocabList[i],p0v[i]))
        if p1v[i] > -5.0 : 
            topNY.append((vocabList[i],p1v[i]))
    sortedSF = sorted(topSF,key = lambda pair: pair[1],reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY,key = lambda pair:pair[1],reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print(item[0])

getTopWords(ny,sf)

the error rate is : 0.3
SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**
really
abou
join
years
maybe
whom
one
wood
games
working
hang
fitness
early
two
also
know
june
past
level
could
but
NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**
channel
need
lady
great
our
shorter
make
little
attire
call
attend
youtube
things
participate
area
has
hair
help
got
funds
butterfly
social
vide
extra
submit
shiny
outgoing
brooklyn
there
how
long
etc
new
afternoon
noon
conversation
watching
hurry
walks
29th
youtu
back
does
dinner
moments
seeking
paddy
around
people
number
restaurant
put
couple
singers
weekends
maybe
share
when
must
love
full
name
live
then
5twfhtidasa
videos
humor
crowded
friend
articulate
info
pastime
working
starter
black
sports
show
those
considered

機器學習實戰——樸素貝葉斯分類

準備資料：從文字中構建詞向量前期測試函式用的資料 def loadDataSet(): '''建立一些實驗樣本''' postingList = [['my','dog','has','flea','problems','help','

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

機器學習實戰——樸素貝葉斯Python實現記錄

問題：regEx= re.compile('\\W*') 屬於列印錯誤。正確： regEx = re.compile('\W*') regEx = re.compile('\W*') 關於'\W' 和'\w'區別，可參考部落格：https://

機器學習之樸素貝葉斯分類方法

本文轉載自http://holynull.leanote.com/post/Logistic-2 樸素貝葉斯分類方法前言樸素貝葉斯分類演算法是機器學習領域最基本的幾種演算法之一。但是對於作者這樣沒有什麼資料基礎的老碼農來說，理解起來確實有一些困難。所以撰寫此文幫

機器學習實戰-樸素貝葉斯

資料集參考自https://blog.csdn.net/c406495762/article/details/77341116 樸素貝葉斯：首先，何為樸素？樸素要求的是條件特徵之間相互獨立。我們都知道大名鼎鼎的貝葉斯公式，其實樸素貝葉斯的思想很簡單。就是通過計算屬於某一類別的後驗概率，然後比較大小，哪一類的

機器學習實戰——樸素貝葉斯

1 模型介紹 1.1 樸素貝葉斯分類器樸素貝葉斯是基於貝葉斯定理及特徵條件獨立的假設來實現分類的方法，就是在已知先驗概率的前提下，求後驗概率的最大值。設樣本集合為 xxx ，其屬性集合為 {x1,x2,⋯ ,xd}\{x_1,

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

文章目錄前面實現的樸素貝葉斯分類器，決策函式是非向量化的：藉助於numpy向量化處理，相當於平行計算，注意mask使用技巧，用途較廣：前面實現的樸素貝葉斯分類器，決策函式是非向量化的：前面提到過大資料處理，儘量避免個人的遍歷等一些函式

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

機器學習之樸素貝葉斯分類器附C++程式碼

一、基本概念：先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。聯合概率：表示兩個事件共同發生的概率。A與B的

機器學習實戰樸素貝葉斯原理及程式碼

#---------------------------從文字中構建詞條向量------------------------- #1 要從文字中獲取特徵，需要先拆分文字，這裡特徵是指來自文字的詞條，每個詞 #條是字元的任意組合。詞條可以理解為單詞，當然也可以是非單詞詞條，比如URL #IP地址或者其他任意字

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

《機器學習實戰》-貝葉斯分類

vocabList,p0V,p1V=localWords(ny,sf)出現錯誤將ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') sf=feedparser.parse('http://sfb

機器學習實戰-樸素貝葉斯演算法

樸素貝葉斯概述樸素貝葉斯也是一個強大的分類演算法。其基本原理：假設現在有1,2,3,3種類別，現有一個數據a，其屬於這個3種類別的概率分別為p1(a),p2(a),p3(a)。如果這3個概率中p1(a)最大，那麼就把資料a歸為1類。這道理好簡單啊，就算我

【機器學習】樸素貝葉斯分類器

前言：在正式講述樸素貝葉斯分類器之前，先介紹清楚兩個基本概念：判別學習方法(Discriminative Learning Algorithm)和生成學習方法(Generative Learning Algorithm)。上篇博文我們使用Logist

機器學習實戰樸素貝葉斯

樸素貝葉斯 amt 生成文本訓練 ini ror rds 詞向量樸素貝葉斯樸素貝葉斯概述文本分類準備數據:從文-本中構建詞向量 - 訓練算法：從詞向量計算概率 - 貝葉斯分類函數 import numpy as np import matplotlib.py

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

【機器學習】--機器學習之樸素貝葉斯從初始到應用

rac AC 一個 pam 數據 ast 出現相對解決方法一、前述機器學習算法中，有種依據概率原則進行分類的樸素貝葉斯算法，正如氣象學家預測天氣一樣，樸素貝葉斯算法就是應用先前事件的有關數據來估計未來事件發生的概率。二、具體 1、背景--貝葉斯定理引入對於兩個關聯

機器學習面試--樸素貝葉斯

eight str 存儲 hint 做的均值相關性似然 actual 關鍵詞：先驗概率；條件概率和後驗概率；特征條件獨立；貝葉斯公式；樸素貝葉斯；極大似然估計；後驗概率最大化；期望風險最小化；平滑方法樸素貝葉斯分類的定義如下： 1. 設 x = a1,a2, ..

機器學習實戰——樸素貝葉斯分類

準備資料：從文字中構建詞向量

訓練演算法：從詞向量計算概率

測試演算法：

使用詞袋模型

示例一：使用樸素貝葉斯過濾垃圾郵件

示例二：使用樸素貝葉斯分類器從當地新聞中獲取所屬區域

相關推薦