樸素貝葉斯演算法---機器學習演算法之三

阿新 • • 發佈：2019-01-10

最近剛剛開始利用空餘時間學習一下機器學習領域的10大經典演算法，作為知識的儲備，算是給自己的學習作一個備份。

何為樸素貝葉斯分類演算法
樸素貝葉斯分類演算法，基於概率論實現分類，它不給出確切的分類，而是給出所屬的類別的估計概率。樸素貝葉斯的理論基礎是條件概率和貝葉斯準則
條件概率
條件概率公式如下：

這裡，事件b表示條件。公式的含義可以理解為在事件b發生的前提下，事件a發生的概率 = 事件a、b同時發生的概率 *事件b發生的概率。
如果事件a有多個屬性，公式的形式如下：

需要注意的是上述公式成立的一個條件是相互獨立
貝葉斯定理
舉一個具體的例子，假如現在有一個裝了7個球的桶，其中3個是白色的，4個是黑色的，那麼隨機取出一個球，球是白色的概率為3/7，為黑色的概率是4/7。如果這7個球放在A、B兩個桶中，如下圖所示：

按照上面的條件概率公式可以知道，p(白/B）=p(白,B)P(B) = (1/7 )/ (3/7) = 1/3。
解釋一下p(白/B）和p(白,B)的區別：p(白/B）表示在B桶中抽到一個白球（所以B是限定條件），p(白,B)表示抽到一個白球且這個白球位於B桶中（白球和B桶同時發生）。通常p(白/B）稱之為先驗概率
那麼問題來了，如果知道了p(白/B）,如何求P（B/白）的概率，也就是已知抽到一個白球，那麼它來自B桶的概率是多少。
這個問題可以利用貝葉斯公式來求解：

對於上面這個具體的例子可以有：
抽到白球的概率p(白）=p(白/A)p(A)+p(白/B)p(B) = (2/4)(4/7) + (1/3)

(3/7) = 3/7 也就是白球發生的概率是3/7
p(白/B)p(B) = 1/7
p(B/白） = （1/7） / (3/7) = 1/3
為什麼是樸素貝葉斯
這裡面有個假設——各個屬性間互相獨立
決策標準
如果p(1/x,y) > p(2/x,y), 那麼屬於類別1
如果p(2/x,y) > p(1/x,y), 那麼屬於類別2
缺陷
因為沒有這裡假設各個屬性相互獨立，但是在某些情況下，屬性B出現的概率依賴於其他屬性，這時候分類的準確度會有偏差，解決辦法在後面的博文中會介紹
實現程式碼
使用python語言實現，這裡有一個小技巧，對於連乘的數學表示式，採用取對數的方式，變成加法，作用是防止出現某一項為0導致整個表示式為0的情況

@python
# -*- coding:utf-8 -*-
__author__ = 'Administrator'
from numpy import *

def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
                   ]
    classVec = [0, 1, 0, 1, 0, 1]  # 1表示出現侮辱性文字，0表示沒有出現侮辱性文字
    return postingList, classVec


def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # python 中，列表乘以一個常數n,表示列表中所有元素作為整體重複n次
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my vocablist!" % word)
    return returnVec


def bagOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # python 中，列表乘以一個常數n,表示列表中所有元素作為整體重複n次
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        else:
            print("the word: %s is not in my vocablist!" % word)
    return returnVec


def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # p0Num = zeros(numWords)
    # p1Num = zeros(numWords)
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])  # 該類中包含的所有詞彙的總數
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])  # 該類中包含的所有詞彙的總數
    p1Vec = log(p1Num / p1Denom)
    p0Vec = log(p0Num / p0Denom)
    return p0Vec, p1Vec, pAbusive


def classifyNB(vec2Classify, p0vec, p1vec, pClass1):
    p1 = sum(vec2Classify * p1vec) + log(pClass1)
    p0 = sum(vec2Classify * p0vec) + log(1-pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


def testingNb():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0v, p1v, pAb = trainNB0(array(trainMat), array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry, "classified as: ", classifyNB(thisDoc, p0v, p1v, pAb)
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry, "classified as: ", classifyNB(thisDoc, p0v, p1v, pAb)


def textParse(bigString):
    import re
    listOfTockens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTockens if len(tok) > 2]


def spamTest():
    docList = []
    classList = []
    fullText = []
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)  # wordlist整體作為一個元素加入到doclist
        fullText.extend(wordList)  # wordList的元素依次加入到doclist
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)  # wordlist整體作為一個元素加入到doclist
        fullText.extend(wordList)  # wordList的元素依次加入到doclist
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50)
    testSet = []
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []
    trainClass = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClass.append(classList[docIndex])
    p0v, p1v, pSpam = trainNB0(array(trainMat), array(classList))
    errorCount = 0
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0v, p1v, pSpam) != classList[docIndex]:
            errorCount += 1
            print('error doc = ', docList[docIndex])
    # print('the error rate is:', float(errorCount / len(testSet)))
    print('the error rate is:', float(errorCount) / len(testSet))

這裡寫程式碼片

樸素貝葉斯分類和預測演算法的原理及實現

決策樹和樸素貝葉斯是最常用的兩種分類演算法，本篇文章介紹樸素貝葉斯演算法。貝葉斯定理是以英國數學家貝葉斯命名，用來解決兩個條件概率之間的關係問題。簡單的說就是在已知P(A|B)時如何獲得P(B|A)的概率。樸素貝葉斯（Naive Bayes）假設特徵P(A)在特定結果P(

樸素貝葉斯Naïve Bayes分類演算法在Hadoop上的實現

1. Naïve Bayes演算法介紹 Naïve Bayes是一個簡單有效的分類演算法，已經得到廣泛使用。本文討論了海量資料（TB級）下Naïve Bayes演算法的實現方法，並給出了Hadoop上的實現方案。 2. Naïve Bayes演算法介紹

貝葉斯在機器學習中的應用（一）

需要基礎 under 情況下學生意義 span 公式 ext 貝葉斯在機器學習中的應用（一）一：前提知識具備大學概率論基礎知識熟知概率論相關公式，並知曉其本質含義/或實質意義

統計學習方法—樸素貝葉斯法（學習筆記）

相關概念貝葉斯定理是關於隨機事件AA和BB的條件概率的一則定理，P(A∣B)P(A∣B)是在B發生的情況下A發生的可能。貝葉斯公式P(Bi∣A)=P(Bi)P(A∣Bi)∑nj=1P(Bj)P(A∣Bj)P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(

資訊理論、貝葉斯及機器學習

專業軟體工程, 現全職 iOS 開發工程師, 業餘 Android/遊戲開發愛好者專注於C/C++, 移動應用開發，特別是移動遊戲的開發。Lisp語言的死忠粉：），熱衷於計算機底層原理。連結我：我的新浪部落格 Q:1020935219 微訊號：C_W_hu

使用樸素貝葉斯進行社會媒體挖掘之推特

前言：本文參考《python資料探勘入門與實踐》第六章，進行twiitter社會媒體挖掘。學完後感覺對社會媒體挖掘領域很有興趣，往後會深入研究。還有就是本文采用ipython編輯，程式碼後面緊跟著輸出，注意不要混淆。正文： ## 下載新的Twitter

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習——樸素貝葉斯演算法

概率定義為一件事情發生的可能性概率分為聯合概率和條件概率聯合概率:包含多個條件，且所有條件同時成立的概率記作:P(A,B) P(A,B)=P(A)P(B) 條件概率:就是事件A在另外一個事件B已經發生的條件概率記作:P(A|B)

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

機器學習樸素貝葉斯演算法

樸素貝葉斯屬於監督學習的生成模型，實現簡單，沒有迭代，學習效率高，在大樣本量下會有較好表現。但因為假設太強——特徵條件獨立，在輸入向量的特徵條件有關聯的場景下，並不適用。樸素貝葉斯演算法：主要思路是通過聯合概率建模，運用貝葉斯定理求解後驗概率;將後驗概率最大者對應的類別作

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

機器學習--樸素貝葉斯分類演算法學習筆記

一、基於貝葉斯決策理論的分類方法優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對於輸入資料的準備方式較為敏感。適用資料型別：標稱型資料。現在假設有一個數據集，它由兩類資料構

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

機器學習演算法樸素貝葉斯

一切盡在程式碼中 python自己下載資料集是真的慢… from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split from sklearn

機器學習筆記5——樸素貝葉斯演算法

在上一講中，我們瞭解到了樸素貝葉斯以及laplace平滑。這一小節中，我們將要改進樸素貝葉斯演算法。原有的樸素貝葉斯中的特徵值xi是隻取0和1兩個值，現在要對樸素貝葉斯進行一般化，以適應於特徵值取值範圍為{1,2,...,k}這種情況。一般化過程中，對p(x

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

機器學習演算法之樸素貝葉斯（Naive Bayes）--第二篇

引言這篇文章主要介紹將樸素貝葉斯模型應用到文字分類任務的技巧和方法。詞袋模型(The Bag of Words Model) 對於機器學習演算法來說，特徵的選擇是一個很重要的過程。那麼如何從文字訓練集中選出好的特徵呢？在自然語言處理中，一個常見

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

本講大綱： 1.樸素貝葉斯（Naive Bayes） 2.神經網路（Neural Networks） 3.支援向量機（Support vector machines） 1.樸素貝葉斯前面講的主要是是二元值的特徵，更一般化的是xi可以取{1，2，3

樸素貝葉斯演算法---機器學習演算法之三

相關推薦