機器學習演算法之樸素貝葉斯

阿新 • • 發佈：2019-02-11

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。

演算法的核心思想就是比較概率的大小，認定概率大的類別為所屬類別

下面是公式推導

下面是樸素貝葉斯的python程式碼實現

import numpy as np
from functools import reduce

def loadDataSet():
    """
    建立資料集
    :return:postingList:實驗樣本切分詞條,classVec:類別標籤向量:1:侮辱類，2:非侮辱類 
    """
    postingList = [['my','dog','has','flea','probelms','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]
    return postingList,classVec

def setOfWords2Vec(vocabList,inputSet):
    """
    根據vocabList詞彙表，將inputSet向量化,即詞彙表
    :param vocabList:詞彙表 
    :param inputSet:切分的詞條列表
    :return:文件向量 
    """
    returnVec = [0]*len(vocabList)#建立一個向量其中所有元素都為0
    for word in inputSet:#遍歷每個詞條
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word:%s is not in my Vocabulary!" % word)
    return returnVec

def createVocabList(dataSet):
    """
    將資料轉化為詞彙表，即詞條不重複
    :param dataSet: 
    :return: 
    """
    vocabSet = set([])#建立一個空的不重複的列表
    for document in dataSet:
        vocabSet = vocabSet | set(document)#取並集
    return list(vocabSet)

def trainNB0(trainMatrix,trainCategory):
    """
    樸素貝葉斯分類器
    :param trainMatrix: 訓練文件矩陣
    :param trainCategory: 訓練類別標籤向量
    :return: p0Vect-侮辱類的條件概率陣列
             p1Vect-非侮辱類的條件概率陣列
             pAbusive-文件屬於侮辱類的概率
    """
    numTrainDocs = len(trainMatrix)#計算訓練的文件數目
    numWords = len(trainMatrix[0])#計算每篇文件的詞條數
    pAusive = sum(trainCategory)/float(numTrainDocs)
    #p0Num = np.zeros(numWords);p1Num = np.zeros(numWords)#建立numpy.zeros陣列，詞條出現數初始化為0
    p0Num = np.ones(numWords);p1Num = np.ones(numWords)#詞條出現數初始化為1,拉普拉斯平滑
    #p0Denom = 0.0;p1Denom = 0.0#分母初始化為0
    p0Denom = 2.0;p1Denom = 2.0#分母初始化為2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:#統計屬於侮辱類的條件概率所需的資料:P(w0&1)
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:#統計屬於非侮辱類的條件概率所需的資料
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])

    p1Vect = p1Num/p1Denom
    p0Vect = p0Num/p0Denom
    return p0Vect,p1Vect,pAusive

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    """
    樸素貝葉斯分類函式
    :param vec2Classify: 待分類詞條陣列
    :param p0Vec: 侮辱類的條件概率陣列
    :param p1Vec: 非侮辱類的條件概率陣列
    :param pClass1: 文件屬於侮辱類的概率
    :return: 0-侮辱類 1-非侮辱類
    """
    # #reduce:將一個可以迭代的物件應用到兩個帶有引數的方法上，我們稱這個方法為fun,遍歷這個可迭代的物件，將其中元素依次作為fun的引數
    # p1 = reduce(lambda x,y:x*y,vec2Classify*p1Vec)*pClass1
    # p2 = reduce(lambda x,y:x*y,vec2Classify*p1Vec)*(1.0 - pClass1)
    #用log防止下溢位  logA*B = logA + logB
    p1 = sum(vec2Classify*p1Vec)+np.log(pClass1)
    p0 = sum(vec2Classify*p0Vec)+np.log(1.0 - pClass1)
    print("p1:",p1)
    print("p2:",p0)
    if p1>p0:
        return 1
    else:
        return 0

def testingNB():
    """
    測試貝葉斯分類器
    :return: None
    """
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    p0V,p1V,pAb = trainNB0(trainMat,listClasses)#訓練
    testEntry = ['love','my','dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList,testEntry))#測試樣本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,"屬於侮辱類")
    else:
        print(testEntry, "不屬於侮辱類")

    testEntry = ['stupid','garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList,testEntry))#測試樣本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,"屬於侮辱類")
    else:
        print(testEntry, "不屬於侮辱類")

if __name__ == '__main__':
    testingNB()

執行結果

機器學習演算法之樸素貝葉斯（Naive Bayes）--第二篇

引言這篇文章主要介紹將樸素貝葉斯模型應用到文字分類任務的技巧和方法。詞袋模型(The Bag of Words Model) 對於機器學習演算法來說，特徵的選擇是一個很重要的過程。那麼如何從文字訓練集中選出好的特徵呢？在自然語言處理中，一個常見

機器學習演算法之樸素貝葉斯（Naive Bayes）--第一篇

引言先前曾經看了一篇文章，一個老外程式設計師寫了一些很牛的Shell指令碼，包括晚下班自動給老婆發簡訊啊，自動衝Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想用自己所學來做一點有趣的事情。我的想法如下：首先我寫個scrapy指令碼來

機器學習演算法之樸素貝葉斯

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。演算法的核心思想就是比較概率的大小，認定概率大的類別為所屬類別下面是公式推導下面是樸素貝葉斯的python程式碼實現import numpy as np from functools import reduce de

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

''' @description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法演算法優點： a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率 b 對缺失的資料不太敏感，演算法也比較簡

生成學習演算法之樸素貝葉斯演算法

2 樸素貝葉斯演算法在GDA中，特徵向量是連續的實值向量。現在讓我們討論一種不同的學習演算法，在這個演算法中，是離散值。對於我們的激勵的例子，考慮使用機器學習建立一個電子郵件的垃圾郵件過濾器。這裡，我們希望根據它們是未經請求的商業（垃圾）電子郵件還是非垃圾郵件進行分

機器學習入門之樸素貝葉斯法

樸素貝葉斯法樸素貝葉斯法是基於貝葉斯定理和特徵條件獨立假設分類方法。對於給定訓練集，首先基於特徵條件獨立性的假設，學習輸入/輸出聯合概率（計算出先驗概率和條件概率，然後求出聯合概率）。然後基於此模型，給定輸入x，利用貝葉斯概率定理求出最大的後驗概率作為輸出y

機器學習實戰之樸素貝葉斯

問題1 來源：使用樸素貝葉斯過濾垃圾郵件描述：spamTest()和textParse()讀檔案時編譯通不過報錯：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal

【python】機器學習實戰之樸素貝葉斯分類

一，引言　　前兩章的KNN分類演算法和決策樹分類演算法最終都是預測出例項的確定的分類結果，但是，有時候分類器會產生錯誤結果；本章要學的樸素貝葉斯分類演算法則是給出一個最優的猜測結果，同時給出猜測的概率估計值。 1 準備知識：條件概率公式相信學過概率論的同學對於概

機器學習演算法總結--樸素貝葉斯

這次需要總結的是樸素貝葉斯演算法，參考文章：簡介樸素貝葉斯是基於貝葉斯定理與特徵條件獨立假設的分類方法。貝葉斯定理是基於條件概率來計算的，條件概率是在已知事件B發生的前提下，求解事件A發生的概率，即P(A|B)=P(AB)P(B)，而貝葉

機器學習實戰之樸素貝葉斯_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet():#建立包含文件的訓練集和各文件對應的標籤列表 postinglist = [['my','dog','has','flea','problems',

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

機器學習經典演算法之樸素貝葉斯分類

很多人都聽說過貝葉斯原理，在哪聽說過？基本上是在學概率統計的時候知道的。有些人可能會說，我記不住這些概率論的公式，沒關係，我儘量用通俗易懂的語言進行講解。 /*請尊重作者勞動成果，轉載請標明原文連結：*/ /* https://www.cnblogs.com/jpcflyer/p/11069659

機器學習筆記5——樸素貝葉斯演算法

在上一講中，我們瞭解到了樸素貝葉斯以及laplace平滑。這一小節中，我們將要改進樸素貝葉斯演算法。原有的樸素貝葉斯中的特徵值xi是隻取0和1兩個值，現在要對樸素貝葉斯進行一般化，以適應於特徵值取值範圍為{1,2,...,k}這種情況。一般化過程中，對p(x

《機器學習實戰》學習筆記之樸素貝葉斯（Naive Bayes）

原理假如郵箱中有n個單詞，如果returnVec[i]=0代表這個單詞在這封郵件中不出現， returnVec[i]=1代表這個單詞在郵件中出現了。設訓練集中每個郵件都有標記為是垃圾郵件和不是垃圾郵件，是垃圾郵件的分類為1，不是垃圾郵件的分類為0。演算法原理：

Python機器學習筆記：樸素貝葉斯演算法

　　樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。對於大多數的分類演算法，在所有的機器學習分類演算法中，樸素貝葉斯和其他絕大多數的分類演算法都不同。比如決策樹，KNN，邏輯迴歸，支援向量機等，他們都是判別方法，也就是直接學習出特徵輸出Y和特徵X之間的關係，要麼是決策函式，要麼是條

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

李航統計學習方法之樸素貝葉斯法（含python及tensorflow實現）

樸素貝葉斯法樸素貝葉斯法數學表示式後驗概率最大化的含義樸素貝葉斯是一個生成模型。有一個強假設：條件獨立性。我們先看下樸素貝葉斯法的思想，然後看下條件獨立性具體數學表示式是什麼樣的。

機器學習實戰：樸素貝葉斯--學習筆記

一、工作原理我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率，用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率; 那麼對於一個新資料點 (x,y)，可以用下面的規則來判斷它的類別：如果 p1(x,y)

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

機器學習演算法之樸素貝葉斯

相關推薦