垃圾郵件分類

阿新 • • 發佈：2018-12-06

tokenize 郵件 ext read utf-8 spl 指標 form odin

import  nltk
from nltk.corpus import stopwords
from  nltk.stem import WordNetLemmatizer


#預處理
def preprocessing(text):
    tokens=[word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    stops=stopwords.words(‘english‘)
    tokens=[token for token in tokens if token not in stops]

    tokens=[token.lower() for token in tokens if len(token)>=2]
    lmtzr=WordNetLemmatizer()
    tokens=[lmtzr.lemmatize(token) for token in tokens]
    preprocessed_text=‘ ‘.join(tokens)
    return preprocessed_text

preprocessing((text))


#讀取數據集
import csv
file_path=r‘C:\Users\pc\Desktop\SMSSpamCollectionjsn.txt‘
sms=open(file_path,‘r‘,encoding=‘utf-8‘)
sms_data=[]
sms_label=[]
csv_reader=csv.reader(sms,delimiter=‘\t‘)
for line in csv_reader:
    sms_label.append(line[0])
    sms_data.append(line[1])
sms.close();
print("郵件的總數:",len(sms_label))
sms_label


#劃分訓練集和測試集

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(sms_data,test_size=0.3,random_state=0,startify=sms_label)

#將其向量化
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer=TfidfVectorizer(min_df=2,ngram_range=(1,2),stop_words=‘english‘,strip_accents=‘unicode‘,norm=‘12‘)

X_train=vectorizer.fit_transform(x_train)
X_text=vectorizer.transform(x_test)

X_train
a=X_train.toarray()
print(a)

for i in range(1000):
    for j in range(5984):
        if a[i,j]!=0:
            print(i,j,a[i,j])

#樸素貝葉斯分類器
from sklearn.navie_bayes import MultinomialNB
clf= MultinomialNB().fit(X_train,y_train)
y_nb_pred=clf.predict(X_test)

#分類結果顯示
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
#x_test預測結果
print(y_nb_pred.shape,y_nb_pred)
print(‘nb_confusion_matrix:‘)
#混淆矩陣
cm=confusion_matrix(y_test,y_nb_pred)
print(cm)
print(‘nb_classification_report:‘)
#分類指標文本報告
cr=classification_report(y_test,y_nb_pred#主要分類指標的文本報告
print(cr)

垃圾郵件分類

利用樸素貝葉斯（Navie Bayes）進行垃圾郵件分類

判斷 ase create numpy water 向量 not in imp img 貝葉斯公式描寫敘述的是一組條件概率之間相互轉化的關系。在機器學習中。貝葉斯公式能夠應用在分類問題上。這篇文章是基於自己的學習所整理。並利用一個垃圾郵件分類的樣例來加深對於理論的理解

Spark垃圾郵件分類(scala+java)

name pac algorithm over email @override logistic es2017 AMF Java程序 import java.util.Arrays; import org.apache.spark.SparkConf; im

樸素貝葉斯應用：垃圾郵件分類

import nltk nltk.download() from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #預處理 def preprocessing(text): tokens

樸素貝葉斯應用：垃圾郵件分類(更新)

#讀取資料集 import csv file_path=r'jiangnan.txt' sms=open(file_path,'r',encoding='utf-8') sms_data=[] sms_label=[] text=csv.reader(sms,delimiter='\t') text

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

垃圾郵件分類

tokenize 郵件 ext read utf-8 spl 指標 form odin import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #預

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

吳恩達-機器學習(6)-評估學習演算法、偏差與方差、構架垃圾郵件分類器、處理傾斜資料

文章目錄 Evaluating a Learing Algorithm Decidding what to try next Evaluating your hypothesis Bias

CNN英文垃圾郵件分類（資料預處理）

整理自唐宇迪老師的視訊課程，感謝他！本文最後會貼出所有的原始碼檔案，下文只是針對每個小點貼出程式碼進行註釋說明，可以略過。 1.思路關於利用CNN做文字分類，其主要思想通過下面這幅圖就能夠一目瞭然。本文主要記錄了利用CNN來分類英文垃圾郵件的全

文字分類：垃圾郵件分類

文字挖掘（Text Mining，從文字中獲取資訊）是一個比較寬泛的概念，這一技術在如今每天都有海量文字資料生成的時代越來越受到關注。目前，在機器學習模型的幫助下，包括情緒分析，檔案分類，話題分類，文字總結，機器翻譯等在內的諸多文字挖掘應用都已經實現了自動化。　　

垃圾郵件分類器的原理（1）

學習完了斯坦福大學《機器學習》第7周課程，做完程式設計作業垃圾郵件分類器，準備分享下實現原理和實現方法，對自己也是起到總結作用，對博友是個參考，估計得寫好幾篇才能講完，這是第一篇。先看執行結果：訓練樣本有4000個，測試樣本有1000個，結果顯示判斷準確率都在98%以上

CNN中文垃圾郵件分類（二）

本文整理自唐宇迪老師視訊，謝謝他！ 1.思路在上一篇部落格CNN中文垃圾郵件分類（一）中介紹了兩種預處理方式，現在來介紹第二種，先用分好詞的資料作為訓練語料，選擇前n個詞作為詞表（或者去掉出現頻率

文字處理之貝葉斯垃圾郵件分類

本文所講解的是如何通過Python將文字讀取,並且將每一個文字生成對應的詞向量並返回. 文章的背景是將50封郵件(包含25封正常郵件,25封垃圾郵件)通過貝葉斯演算法對其進行分類. 主要分為如下幾個部分: ①讀取所有郵件; ②建立詞彙表; ③生成沒封郵件對應的詞

python實現貝葉斯推斷——垃圾郵件分類

理論前期準備資料來源資料來源於《機器學習實戰》中的第四章樸素貝葉斯分類器的實驗資料。資料書上只提供了50條資料（25條正常郵件，25條垃圾郵件），感覺資料量偏小，以後打算使用scikit-learn提供的iris資料。資料準備和很

Machine Learning第六講[應用機器學習的建議] --（三）建立一個垃圾郵件分類器

內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。一、Prioritizing What to Work on（優

模式分類與應用-貝葉斯垃圾郵件分類

垃圾郵件分類任務要求使用檔案spambase.data中的資料，訓練垃圾郵件分類的貝葉斯分類器，並測試分類效能。資料初步分析 spambase.data是一個垃圾郵件的資料庫，來自於惠普公司的Hewlett Packard L

Spam classification(垃圾郵件分類)—SVM、Logistic分類、SEA-Logistic(深度網路)分類

<span style="color:#3333ff;font-size:18px; font-weight: bold; font-family: 'Times New Roman';">%STEP 2: 初始化引數和load資料 </span><span style="fon

【Spark Mllib】邏輯迴歸——垃圾郵件分類器與maven構建獨立專案

Dear Spark Learner, Thanks so much for attending the Spark Summit 2014! Check out videos of talks from the summit at ... Hi Mom, Apologies for being late

檢測使用者命令序列異常——使用LSTM分類演算法【使用樸素貝葉斯，類似垃圾郵件分類的做法也可以，將命令序列看成是垃圾郵件】

# -*- coding:utf-8 -*- import sys import re import numpy as np import nltk import csv import matplotlib.pyplot as plt from nltk.probability import Fre

垃圾郵件分類

相關推薦