基於樸素貝葉斯的垃圾郵件過濾

阿新 • • 發佈：2018-12-22

1.文字切分

#對於一個文字字串，可以使用Python的string.split()方法將其切分
mySent = 'This book is the best book on python or M.L. I have ever laid eyes upon'
words = mySent.split(' ')
#Python中有一些內嵌的方法，可以將字串全部轉換成小寫（.lower()）或者大寫（.upper()）
[a.lower() for a in words]
>>['this','book','is','the','best','book','on','python','or','m.l.','i','have','ever','laid','eyes','upon']

#上面標點符號也被當成了詞的一部分。可以使用正則表示式來切分句子，其中分隔符是除單詞、數字外的任意字串
import re
words = re.split(r'\W*',mySent)
[a.lower() for a in words if len(a)>0 ]#只返回長度大於0的字串
>>['this','book','is','the','best','book','on','python','or','m','l','i','have','ever','laid','eyes','upon']

2.貝葉斯相關函式

#構建詞表
def vocabularyTable(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

#構建詞向量
def doc2vec(vocabSet,document):
    docVec = [0]*len(vocabSet)
    for word in document:
        if (word in vocabSet):
            docVec[vocabSet.index(word)] = 1
    return docVec   

#訓練貝葉斯分類器
import numpy as np
import math
def trainBayes(trainVec,classLabel):
    numData = len(trainVec)
    numWords = len(trainVec[0])
    pAbusive = sum(classLabel)/float(numData)
    p0num = np.ones(numWords); p1num = np.ones(numWords)
    p0sum = 2; p1sum = 2
    p1Vect =np.array([0]*numWords); p0Vect = np.array([0]*numWords)
    for i in range(numData):
        if(classLabel[i]==1):
            p1num += trainVec[i]
            p1sum += sum(trainVec[i])
        else:
            p0num += trainVec[i]
            p0sum += sum(trainVec[i])
    for i in range(numWords):
        p1Vect[i] = math.log(p1num[i]/p1sum)
        p0Vect[i] = math.log(p0num[i]/p0sum)
    return pAbusive,p1Vect,p0Vect

#貝葉斯分類函式
def classify(docVec,pClass1,p1Vect,p0Vect):
    p1 = sum(docVec * p1Vect)+math.log(pClass1)
    p0 = sum(docVec *p0Vect) +math.log(1-pClass1)
    if(p1>p0):
        return 1
    else:
        return 0

3、檔案解析

def textParse(email):
    import re
    words = re.split(r'\W*',email)
    return [a.lower() for a in words if(len(a)>2)]

4、垃圾郵件測試

def spamTest():
    docList = []; classList = []
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt'%i).read())
        docList.append(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt'%i).read())
        docList.append(wordList)
        classList.append(0)
    vocabList = vocabularyTable(docList)
    
    #隨機抽取10封郵件用來測試
    trainingSet = list(range(50)); testSet = []
    for i in range(10):
        #這地方不能用50，只能用len(trainingSet),因為刪除一個元素之後只有49個元素了，
        #索引最大值為48，下一次迴圈若生成的隨機數為49則超過了索引
        randIndex = int(np.random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []; trainClass = []
    for index in trainingSet:
        trainMat.append(doc2vec(vocabList,docList[index]))
        trainClass.append(classList[index])

    #訓練
    pSpam,p1Vect,p0Vect = trainBayes(trainMat,trainClass)

    #測試
    errorCount = 0
    for index in testSet:
        wordVect = doc2vec(vocabList,docList[index])
        if(classify(np.array(wordVect),pSpam,p1Vect,p0Vect)!= classList[index]):
            errorCount+=1
            print('the real class is %d,the predict class is %d'%(classList[index],classify(np.array(wordVect),pSpam,p1Vect,p0Vect)))
            print(docList[index])    
    print('the erroe rate is %.2f'%(float(errorCount)/len(testSet)))

spamTest()
>>the erroe rate is 0.00
spamTest()
>>the real class is 1,the predict class is 0
['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts']
the erroe rate is 0.10

因為這些電子郵件是隨機選擇的，所以每次的輸出結果可能有些差別。比如上面執行的結果，第一次錯誤率為0，第二次錯誤率為0.1，即10封郵件中有一封預測錯誤，多執行幾次發現這裡的錯誤大部分都是將垃圾郵件誤判為正常郵件。相比之下，將垃圾郵件誤判為正常郵件要比將正常郵件歸到垃圾郵件好。

基於樸素貝葉斯的垃圾郵件過濾

1.文字切分 #對於一個文字字串，可以使用Python的string.split()方法將其切分 mySent = 'This book is the best book on python or M.L. I have ever laid eyes upon' word

Python實現基於樸素貝葉斯的垃圾郵件分類

聽說樸素貝葉斯在垃圾郵件分類的應用中效果很好，尋思樸素貝葉斯容易實現，就用python寫了一個樸素貝葉斯模型下的垃圾郵件分類。在400封郵件（正常郵件與垃圾郵件各一半）的測試集中測試結果為分類準確率95.15%，在僅僅統計詞頻計算概率的情況下，分類結果還是相當不

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

基於樸素貝葉斯分類器的 20-news-group分類及結果對比(Python3)

之前看了很多CSDN文章，很多都是根據stack overflow 或者一些英文網站的照搬。導致我看了一整天最後一點收穫都沒有。這個作業也借鑑了很多外文網站的幫助但是是基於自己理解寫的，算是一個學習筆記吧。環境是python3(海外留學原因作業是英文的，渣英語見諒吧）程式碼最後附上。 M

基於樸素貝葉斯算法的情感分類

set 求最大值記錄變焦 def ... rop ros 結果環境 win8, python3.7, jupyter notebook 正文什麽是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opi

kaggle | 基於樸素貝葉斯分類器的語音性別識別

概要：本實驗基於kaggle上的一個資料集，採用樸素貝葉斯分類器，實現了通過語音識別說話人性別的功能。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 語音性別識別

MINIST | 基於樸素貝葉斯分類器的0-9數字手寫體識別

概要：本實驗基於MINIST資料集，採用樸素貝葉斯分類器，實現了0-9數字手寫體的識別。本文將簡要介紹這一方法的原理、程式碼實現以及在程式設計過程中需要注意的若干問題，程式碼仍然是用MATLAB寫成的。關鍵字： MATLAB; 影象處理; 數字手寫體識別

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

基於樸素貝葉斯的關於網際網路金融新聞分類（python實現）

中國網際網路金融發展迅速，2014年是中國網際網路金融起步的一年，但在短短的一年時間內，網際網路金融創業者們融資額度一再創高，雨後春筍般湧現出各類網際網路金融產品讓使用者眼花繚亂，隨著創業門檻的降低，在即將到來的2015年，網際網路金融必將在中國掀起熱潮。

基於樸素貝葉斯分類器的文字分類

實驗要求題目要求 1、用MapReduce演算法實現貝葉斯分類器的訓練過程，並輸出訓練模型； 2、用輸出的模型對測試集文件進行分類測試。測試過程可基於單機Java程式，也可以是MapRe

自然語言處理一：基於樸素貝葉斯的語種檢測

本文來自是對七月線上寒小陽自然語言處理課程的總結。本文使用樸素貝葉斯完成一個語種檢測的分類器，準確度經過簡單的引數調優可以達到99.1%。機器學習的演算法要取得好效果，離不開資料，咱們先拉點資料（twitter資料，包含English, French, Germa

基於樸素貝葉斯的新聞分類

貝葉斯理論在我們有一大堆樣本（包含特徵和類別）的時候，我們非常容易通過統計得到 p(特徵|類別) . 大家又都很熟悉下述公式： #coding: utf-8 import os import time import random import

基於樸素貝葉斯的中文文字分類器(python實現，非呼叫)

本文將用樸素貝葉斯原理做一箇中文文字分類器。樸素貝葉斯完全可以勝任多分類任務。為了方便，這裡就先做個2分類的。理論部分：https://blog.csdn.net/montecarlostyle/article/details/79870860 我們事先準備兩

文字處理之貝葉斯垃圾郵件分類

本文所講解的是如何通過Python將文字讀取,並且將每一個文字生成對應的詞向量並返回. 文章的背景是將50封郵件(包含25封正常郵件,25封垃圾郵件)通過貝葉斯演算法對其進行分類. 主要分為如下幾個部分: ①讀取所有郵件; ②建立詞彙表; ③生成沒封郵件對應的詞

模式分類與應用-貝葉斯垃圾郵件分類

垃圾郵件分類任務要求使用檔案spambase.data中的資料，訓練垃圾郵件分類的貝葉斯分類器，並測試分類效能。資料初步分析 spambase.data是一個垃圾郵件的資料庫，來自於惠普公司的Hewlett Packard L

基於樸素貝葉斯的定位演算法

1 定位背景介紹一說到定位大家都會想到gps，然而gps定位有首次定位緩慢（具體可以參考之前的博文《LBS定位技術》）、室內不能使用、耗電等缺陷，這些缺陷大大限制了gps的使用。在大多數移動網際網路應用例如google地圖、百度地圖等，往往基於wifi、基站來進行定位。一般

從爬取豆瓣影評到基於樸素貝葉斯的電影評論情感分析(上)

一、爬取豆瓣影評基本思路：先獲取每個電影的評論區連結，然後依次進入其評論區爬取評論。選取10部電影，每部200條評論。用到的包為：BeautifulSoup，urllib 這裡選取的連結為：豆瓣電影，開啟後內容如下：

資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐

前言：如果你想對一個陌生的文字進行分類處理，例如新聞、遊戲或是程式設計相關類別。那麼貝葉斯分類演算法應該正是你所要找的了。貝葉斯分類演算法是統計學中的一種分類方法，它利用概率論中的貝葉斯公式進行擴充套件。所以，這裡建議那些沒有概率功底或是對概率論已經忘記差不多的讀者可

基於樸素貝葉斯分類器的文字分類演算法（上）

轉載請保留作者資訊：作者：phinecos（洞庭散人） Preface 本文緣起於最近在讀的一本書-- Tom M.Mitchell的書中第6章詳細講解了貝葉斯學習的理論知識，為了將其應用到實際中來，參考了網上許多資料，從而得此文。文章將分為兩個部分，第一部分將介紹貝葉斯學習的相關理論()。第二部

基於樸素貝葉斯的垃圾郵件過濾

相關推薦