機器學習實戰筆記4(樸素貝葉斯)

阿新 • • 發佈：2019-01-06

前面介紹的kNN和決策樹都給出了“該資料例項屬於哪一類”這類問題的明確答案，而有時候的分類並不能給出明確的答案，本節講解使用概率論進行分類的方法。

1：簡單概念描述

概念比較簡單，這裡我摘抄自百度百科，很容易理解。

樸素貝葉斯模型(NaiveBayesian classification))：

----

Vmap=arg max P( Vj | a1,a2...an)

Vj屬於V集合

其中Vmap是給定一個example,得到的最可能的目標值.

其中a1...an是這個example裡面的屬性.

這裡面,Vmap目標值,就是後面計算得出的概率最大的一個.所以用max來表示

----

貝葉斯公式應用到

P(Vj | a1,a2...an)中.

可得到Vmap= arg max P(a1,a2...an | Vj ) P( Vj ) / P (a1,a2...an)

又因為樸素貝葉斯分類器預設a1...an他們互相獨立的.

所以P(a1,a2...an)對於結果沒有用處. [因為所有的概率都要除同一個東西之後再比較大小,最後結果也似乎影響不大]

可得到Vmap=arg max P(a1,a2...an | Vj ) P( Vj )

然後

"樸素貝葉斯分類器基於一個簡單的假定：給定目標值時屬性之間相互條件獨立。換言之。該假定說明給定例項的目標值情況下。觀察到聯合的a1,a2...an的概率正好是對每個單獨屬性的概率乘積：

P(a1,a2...an | Vj ) =Πi P( ai| Vj )

....

樸素貝葉斯分類器：Vnb=arg max P( Vj ) Π i P ( ai | Vj )

其中a1，a2…an為特徵值，Vj為分類的結果。這也體現了貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。它是文件分類的常用演算法。

2:python程式碼的實現—過濾網站惡意留言

情景描述：

(1) 詞表到詞向量的轉換函式

from numpy import *
#過濾網站的惡意留言
# 建立一個實驗樣本
def loadDataSet():
    postingList = [['my','dog','has','flea','problems','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop','posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec

# 建立一個包含在所有文件中出現的不重複詞的列表
def createVocabList(dataSet):
    vocabSet = set([])      #建立一個空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)   #建立兩個集合的並集
    return list(vocabSet)

#將文件詞條轉換成詞向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)        #建立一個其中所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            #returnVec[vocabList.index(word)] = 1     #index函式在字串裡找到字元第一次出現的位置  詞集模型
            returnVec[vocabList.index(word)] += 1      #文件的詞袋模型    每個單詞可以出現多次
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

(2) 從詞向量計算概率

#樸素貝葉斯分類器訓練函式   從詞向量計算概率
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
   # p0Num = zeros(numWords); p1Num = zeros(numWords)
    #p0Denom = 0.0; p1Denom = 0.0
    p0Num = ones(numWords); p1Num = ones(numWords)         #避免一個概率值為0,最後的乘積也為0
    p0Denom = 2.0; p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
   # p1Vect = p1Num / p1Denom
    #p0Vect = p0Num / p0Denom
    p1Vect = log(p1Num / p1Denom)
    p0Vect = log(p0Num / p0Denom)      #避免下溢位或者浮點數舍入導致的錯誤   下溢位是由太多很小的數相乘得到的
    return p0Vect, p1Vect, pAbusive

(3) 根據現實情況修改分類器

#樸素貝葉斯分類器
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify*p1Vec) + log(pClass1)
    p0 = sum(vec2Classify*p0Vec) + log(1.0-pClass1)
    if p1 > p0:
        return 1
    else: return 0

def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    testEntry = ['love','my','dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb)
    testEntry = ['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb)

注意：主要從以下兩點對分類器進行修改

<1>貝葉斯概率需要計算多個概率的乘積以獲得文件屬於某個類別的概率，即計算p(w0|1)p(w1|1)p(w2|1)。如果其中一個概率值為0，那麼最後的乘積也為0

<2>第二個問題就是下溢位，這是由於太多過小的數相乘造成的。由於大部分因子都非常小，所以程式會下溢位或者得不到正確的答案。解決辦法是對乘積取自然對數這樣可以避免下溢位或者浮點數舍入導致的錯誤。

<3>每個單詞的出現與否作為一個特徵，被稱為詞集模型；在詞袋模型中，每個單詞可以出現多次。

3:案例—過濾垃圾電子郵件

#過濾垃圾郵件
def textParse(bigString):      #正則表示式進行文字解析
    import re
    listOfTokens = re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1,26):                          #匯入並解析文字檔案
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50);testSet = []
    for i in range(10):                         #隨機構建訓練集
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
    errorCount = 0
    for docIndex in testSet:              #對測試集進行分類
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print 'the error rate is: ', float(errorCount)/len(testSet)

注意：這裡訓練測試的方法是從總的資料集中隨機選擇數字，將其新增到測試集中，同時將其從訓練集中剔除。這種隨機選擇資料的一部分作為訓練集，而剩餘部分作為測試集的過程為留存交叉驗證（hold-out cross validation）。有時為了更精確地估計分類器的錯誤率，就應該進行多次迭代後求出平均錯誤率。

註明：1：本筆記來源於書籍<機器學習實戰>

2：bayes.py檔案及筆記所用資料在這下載(http://download.csdn.net/detail/lu597203933/7732153).

 歡迎轉載或分享，但請務必宣告文章出處。 （新浪微博：小村長zack, 歡迎交流！）

機器學習實戰筆記4(樸素貝葉斯)

前面介紹的kNN和決策樹都給出了“該資料例項屬於哪一類”這類問題的明確答案，而有時候的分類並不能給出明確的答案，本節講解使用概率論進行分類的方法。 1：簡單概念描述概念比較簡單，這裡我摘抄自百度百科，很容易理解。樸素貝葉斯模型(NaiveBayesian classif

機器學習實戰筆記3—樸素貝葉斯

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

Python機器學習與實戰筆記之樸素貝葉斯分類

1聯合概率分佈 p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假設條件獨立拆分成兩個事件的乘積 2基本假設條件獨立性 3利用貝葉斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(

（筆記）斯坦福機器學習第六講--樸素貝葉斯

span || -h 沒有 height 單純去除變量 logistic 本講內容 1. Naive Bayes（樸素貝葉斯） 2.Event models（樸素貝葉斯的事件模型） 3.Neural network （神經網絡） 4.Support vector mac

統計學習筆記4—樸素貝葉斯法

第四章樸素貝葉斯法 4.1樸素貝葉斯法的學習與分類 4.1.1基本方法樸素貝葉斯法通過訓練資料集學習聯合概率分佈。利用先驗概率分佈和條件概率分佈求得聯合概率分佈：條件概率引數是指數級，太複雜—條件獨立性假設：用於分類的特徵在類確定的條件下是獨立的。

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

參考部落格：（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.5 一樸素貝葉斯理論二 demo：過濾網站惡意留言以線上社群留言為例。為了不影響社群的發展，我們要遮蔽侮辱性的言論，所以要構建一個快速過濾器，如果某

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

機器學習-資料分析之樸素貝葉斯過濾垃圾郵件

資料分析之過濾垃圾郵件前沿之前也學了一些資料分析的案例從一直沒有記錄，所有準備從現在開始把所學的都記錄在CSDN中。如果大家看到我的博文有什麼不理解或者還想學習更深入的可以去上面的網站。樸素貝葉斯之過濾垃圾郵件使用樸素貝葉斯解決一些生活中的問題。先從文字內容得

機器學習筆記（參考吳恩達機器學習視訊筆記）17_貝葉斯分類器

17 貝葉斯分類器貝葉斯分類是一種分類演算法的總稱，這種演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。貝葉斯分類器的分類原理是通過某物件的先驗概率，利用貝葉斯公式計算出其後驗概率，即該物件屬於某一類的概率，選擇具有最大後驗概率的類作為該物件所屬的類。 17.1 貝葉斯

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

sklearn的機器學習之路：樸素貝葉斯

1. 基礎概念什麼是樸素貝葉斯：貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。貝葉斯公式

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

1，前言很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不囉嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大資料探勘演算法中最簡單的演算法）。但

Python與機器學習（五）樸素貝葉斯分類

1.安裝中文分詞器由於本文是對中文文字進行分類，故需要用到中文分詞器，而結巴分詞則是Python支援較好的一款分詞器。使用命令安裝： pip3 install jieba3k 或者下載結巴分詞檔案【下載】結巴分詞測試：結巴分詞支援三種分詞模式：精確模式，也是結巴

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

機器學習經典演算法之樸素貝葉斯分類

很多人都聽說過貝葉斯原理，在哪聽說過？基本上是在學概率統計的時候知道的。有些人可能會說，我記不住這些概率論的公式，沒關係，我儘量用通俗易懂的語言進行講解。 /*請尊重作者勞動成果，轉載請標明原文連結：*/ /* https://www.cnblogs.com/jpcflyer/p/11069659

機器學習實戰讀書筆記(3)--樸素貝葉斯

基於貝葉斯決策理論的分類方法優點:在資料較少的情況下仍然有效,可以處理多類別問題缺點:對輸入資料的準備方式比較敏感,需要標稱資料.確定貝葉斯最優假設的計算代價較大樸素貝葉斯是貝葉斯決策理論的一部分.貝葉斯決策理論的核心思想:一個數據集包括2類(或兩類以上

機器學習實戰筆記4(樸素貝葉斯)

相關推薦