樸素貝葉斯應用：垃圾郵件分類

阿新 • • 發佈：2018-11-29

import nltk
nltk.download()
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

#預處理
def preprocessing(text):
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokrnize(sent)]
    stops = stopwords.words('english')  
    tokens = [token for 
 token in tokens if token not in stops]   #去掉停用詞

    tokens = [token.lower() for token in tokens if len(token)>=2]  #去掉長度小於2的詞
    lmtzr  =  WordNetLemmatizer()
    tokens = (lmtzr.lemmatize(token) for token in tokens) #詞性還原
    preprocessed_text = ' '.join(tokens)  
    return preprocessed_text

 
#讀取資料集
import csv
file_path = r'C:\Users\Administrator\Desktop\SMSSpamCollectionjsn.txt'
sms = open(file_path,'r',encoding='utf-8')
sms_data = []
sms_label = []
csv_reader = csv.reader(sms,delimiter = '\t')
for line in csv_reader:
    sms_label.append(line[0])
    sms_data.append(preprocessing(line[1]))
sms.close()

 
#訓練集和測試集資料劃分
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(sms_data,sms_label,test_size = 0.3,random_state=0,stratify=sms_label)

#將其向量化
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1,2),stop_words='english',strip_accents='unicode',norm='12')
X_train = vectorizer.fit_transform(x_train)
X_test = vectorizer.transform(x_test)

#樸素貝葉斯分類器

from sklearn.navie_bayes import MultinomiaNB
clf = MultinomiaNB().fit(X_train,y_train)

#測試模型
y_nb_pred = clf.predict(X_test)

#測試模型：結果顯示
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

print(y_nb_pred.shape,y_nb_pred) #x_test預測結果
print('nb_confusion_matrix:')
cm = confusion_matrix(y_test,y_nb_pred)#混淆矩陣
print(cm)
print('nb_classification_report:')
cr = classification_report(y_test,y_nb_pred) #主要分類指標的文字報告
print(cr)

樸素貝葉斯應用：垃圾郵件分類

import nltk nltk.download() from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #預處理 def preprocessing(text): tokens

樸素貝葉斯應用：垃圾郵件分類(更新)

#讀取資料集 import csv file_path=r'jiangnan.txt' sms=open(file_path,'r',encoding='utf-8') sms_data=[] sms_label=[] text=csv.reader(sms,delimiter='\t') text

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

檢測使用者命令序列異常——使用LSTM分類演算法【使用樸素貝葉斯，類似垃圾郵件分類的做法也可以，將命令序列看成是垃圾郵件】

# -*- coding:utf-8 -*- import sys import re import numpy as np import nltk import csv import matplotlib.pyplot as plt from nltk.probability import Fre

機器學習實戰中，第四章樸素貝葉斯，過濾垃圾郵件，正則表示式切分郵件內容得出字母的問題解決方法

原文中的程式碼：listOfTokens = re.split(r'\W*', bigString) 修改為：listOfTokens = re.split(r'\W+', bigString)

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

利用樸素貝葉斯模型識別垃圾郵件

轉載請註明出處：在學習，工作，生活中，我們經常會遇到各種分類問題。讓你猜測一個身高2.16的人的職業，你一般會猜測他是籃球運動員。收到一條含有“中獎”詞語的簡訊，會懷疑是一條垃圾簡訊。新聞編輯，收到一封含有“馬雲”詞語的稿子，會傾向於

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

從貝葉斯公式到垃圾郵件的識別

看《***與畫家》講到"防止垃圾郵件的一種方法"，覺得很適合用來表述數學公式與機器學習之間的關係。涉及到機器學習的數學公式比較簡單，概率論基礎教程都會講到。解決的問題也很典型：垃圾郵件的識別。防止垃圾郵件有很多種方法，最直觀的一種就是“規則”, 各種if-else的條件。這種方法能夠解決一個問題，但是解

樸素貝葉斯應用

port form enc with mod cep numpy english 混淆矩陣 import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer impo

利用sklearn 樸素貝葉斯進行評論短語的分類

功能：對評論短語，比如一個文章下的評論短語進行分類通過或者刪除，也就是是垃圾、不是垃圾。工具： Spyder，jieba分詞，numpy，joblib，sklearn 程式： # -*- coding: utf-8 -*- """ Created on Mon May 14 10

【機器學習--樸素貝葉斯與SVM進行病情分類預測】

貝葉斯定理由英國數學家托馬斯.貝葉斯（Thomas Baves）在1763提出，因此得名貝葉斯定理。貝葉斯定理也稱貝葉斯推理，是關於隨機事件的條件概率的一則定理。對於兩個事件A和B，事件A發生則B也發生的概率記為P(B|A)，事件B發生則A也發生的概率記為P

基於樸素貝葉斯算法的情感分類

set 求最大值記錄變焦 def ... rop ros 結果環境 win8, python3.7, jupyter notebook 正文什麽是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opi

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

ati int ces 平滑讀取 inf dict http tor 實現本文的文本數據可以在THUCTC下載也可以自己手動爬蟲生成，本文主要參考：https://blog.csdn.net/hao5335156/article/details/82716923 nb表

樸素貝葉斯（Naive Bayes）分類和Gaussian naive Bayes

樸素貝葉斯（Naive Bayes）參考資料：https://www.cnblogs.com/pinard/p/6069267.html 樸素貝葉斯最關鍵的就是（強制認為每種指標都是獨立的）。不同於其它分類器，樸素貝葉斯是一種基於概率理論的分類

邏輯迴歸和樸素貝葉斯演算法實現二值分類（matlab程式碼）

資料簡介：共有306組資料，每組資料有三個屬性(x1,x2,x2)，屬於0類或者1類。資料序號末尾為1的是測試集，有31組；其他的作為訓練集，有275組。 clear clc load('

用樸素貝葉斯對wine資料集分類

該實驗的資料集是MostPopular Data Sets（hits since 2007）中的wine資料集，這是是對在義大利同一地區生產的三種不同品種的酒，做大量分析所得出的資料。這些資料包括了三種酒中13種不同成分的數量。經過幾天對資料集以及分類演算法的研究，詳細研

我的第一篇學習筆記——使用樸素貝葉斯演算法對文件分類詳解

樸素貝葉斯演算法可以實現對文件的分類，其中最著名的應用之一就是過濾垃圾郵件。先做一個簡單的分類，以論壇的留言為例，構建一個快速的過濾器，來區分哪些留言是負面言論，哪些是正面言論。我對演算法思路的理解：首先計算訓練集中每個詞語分別在正面（負面）文件中出現的概率以及正面（負面

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

''' @description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法演算法優點： a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率 b 對缺失的資料不太敏感，演算法也比較簡

樸素貝葉斯應用：垃圾郵件分類

相關推薦