sklearn進行垃圾郵件分類

阿新 • • 發佈：2021-01-12

1. 資料讀取

# 1. 資料集的讀取
import os

dataset_x = []
dataset_y = []
for filename in list(os.listdir("spam")):
    file_content = None
    with open("spam/" + filename, mode="r", encoding="utf-8") as f:
        file_content = f.readlines( 
)
    content = ""
    for c in file_content:
        if len(content) !=0 :
            content += " "
        content += c
    dataset_x.append(content)
    dataset_y.append(1)

for filename in list(os.listdir("ham")):
    file_content = None
    with open("ham/" 
 + filename, mode="r", encoding="utf-8") as f:
        file_content = f.readlines()
    content = ""
    for c in file_content:
        if len(content) !=0 :
            content += " "
        content += c
    dataset_x.append(content)
    dataset_y.append(0)
    
dataset_x = 
 np.array(dataset_x)
dataset_y = np.array(dataset_y)

2. shuffle

這裡，因為要劃分下訓練集和測試集，所需需要先打亂順序。

# 2. 資料集打亂順序
import numpy as np
np.random.seed(116)
np.random.shuffle(dataset_x)
np.random.seed(116)
np.random.shuffle(dataset_y)

3. 向量化表示

前面自己簡單實現了bag of words，這裡就使用tf-idf來實現向量化。

# 3. 使用sklearn的tf-idf來得到詞向量表示
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=2, ngram_range=(1,2), stop_words='english', strip_accents='unicode',norm='l2')
dataset_x_vec = vectorizer.fit_transform(dataset_x)

4. 資料集劃分

為了在後面更加正規的計算準確率等，這裡劃分資料集。

# 4.分0.8/0.2為訓練集和測試集
from sklearn.model_selection import train_test_split
train_x_vec,test_x_vec,train_y,test_y = train_test_split(dataset_x_vec, dataset_y,test_size=0.2)

5. 建立模型

直接使用sklearn中的樸素貝葉斯，我們這裡假設特徵的先驗概率為多項式分佈，即MultinomialNB。
當然，還有二元伯努利分佈、正態分佈，分別對應BernoulliNB、GaussianNB。

# 5. 分類器
from sklearn.naive_bayes import MultinomialNB
clf=MultinomialNB().fit(train_x_vec,train_y)

6. 檢視結果

不妨看下訓練向量的維度：
在這裡插入圖片描述
最後，看看效果：

from sklearn.metrics import classification_report
pred=clf.predict(test_x_vec)
print(classification_report(test_y,pred))

如下：
在這裡插入圖片描述

完整程式碼如下：

# 1. 資料集的讀取
import os

dataset_x = []
dataset_y = []
for filename in list(os.listdir("spam")):
    file_content = None
    with open("spam/" + filename, mode="r", encoding="utf-8") as f:
        file_content = f.readlines()
    content = ""
    for c in file_content:
        if len(content) !=0 :
            content += " "
        content += c
    dataset_x.append(content)
    dataset_y.append(1)

for filename in list(os.listdir("ham")):
    file_content = None
    with open("ham/" + filename, mode="r", encoding="utf-8") as f:
        file_content = f.readlines()
    content = ""
    for c in file_content:
        if len(content) !=0 :
            content += " "
        content += c
    dataset_x.append(content)
    dataset_y.append(0)
    
dataset_x = np.array(dataset_x)
dataset_y = np.array(dataset_y)

# 2. 資料集打亂順序
import numpy as np
np.random.seed(116)
np.random.shuffle(dataset_x)
np.random.seed(116)
np.random.shuffle(dataset_y)


# 3. 使用sklearn的tf-idf來得到詞向量表示
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=2, ngram_range=(1,2), stop_words='english', strip_accents='unicode',norm='l2')
dataset_x_vec = vectorizer.fit_transform(dataset_x)

# 4.分0.8/0.2為訓練集和測試集
from sklearn.model_selection import train_test_split
train_x_vec,test_x_vec,train_y,test_y = train_test_split(dataset_x_vec, dataset_y,test_size=0.2)

# 5. 分類器
from sklearn.naive_bayes import MultinomialNB
clf=MultinomialNB().fit(train_x_vec,train_y)
pred=clf.predict(test_x_vec)

from sklearn.metrics import classification_report
print(classification_report(test_y,pred))

sklearn進行垃圾郵件分類

技術標籤：Machine Learning垃圾郵件分類sklearn 1. 資料讀取 # 1. 資料集的讀取 import os

[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（BERT）

技術標籤：自然語言處理文章目錄 1. 資料處理2. 下載預訓練模型3. 載入資料4. 定義模型5. 訓練6. 提交測試結果

Spark實現簡單的垃圾郵件分類--JAVA原始碼

技術標籤：spark機器學習hadoopjava大資料 Spark實現簡單的垃圾郵件分類–JAVA原始碼

Bert模型實現垃圾郵件分類

近日，對近些年在NLP領域很火的BERT模型進行了學習，並進行實踐。今天在這裡做一下筆記。

樸素貝葉斯--垃圾郵件分類

樸素貝葉斯--垃圾郵件分類一.垃圾郵件資料集 smsspamcollection資料集本文資料集來源github：https://github.com/w1449550206/Spam-classification.git

運用sklearn進行主成分分析(PCA)程式碼實現

運用sklearn進行主成分分析(PCA)程式碼實現　　一、前言及回顧　　二、sklearn的PCA類介紹

運用sklearn進行線性判別分析(LDA)程式碼實現

基於sklearn的線性判別分析(LDA)程式碼實現一、前言及回顧本文記錄使用sklearn庫實現有監督的資料降維技術——線性判別分析（LDA）。在上一篇LDA線性判別分析原理及python應用（葡萄酒案例分析），我們通

使用postfix進行收發郵件

背景：首次使用postfix測試收郵件，發郵件環境：CentOS Linux release 7.8.2003 (Core)，基於VMware Workstations Pro 15

Exchange系列—配置邊緣傳輸伺服器和集線器傳輸伺服器的反垃圾郵件代理

對於安裝了邊緣傳輸伺服器的Exchange拓撲：邊緣傳輸伺服器的反垃圾郵件代理主要是應用於來自internet和發向internet的郵件；

利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）

1、對語料進行分析基本目錄如下：其中train存放的是訓練集，answer存放的是測試集，具體看下train中的檔案：

安裝Exchange2010反垃圾郵件功能

1、在開始選單中開啟Exchange Management Shell，輸入存放Exchange擴充套件指令碼的路徑。如果路徑中包含空格，需要用引號引起來，否則無法識別該路徑。

部署 Outlook 垃圾郵件設定，如安全發件人列表

悅享人永久連結：http://yxzhao.com/2013/deploy-junk-email-settings-safe-senders-list/轉載請註明出處：悅享人-《部署 Outlook 垃圾郵件設定，如安全發件人列表》

利用RNN進行中文文字分類（資料集是復旦中文語料）

利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料） 1、訓練詞向量資料預處理參考利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料），現在我們有了分詞後的train_jieba.txt和test_jieba.tx

JVM怎樣判斷是垃圾物件進行垃圾回收

前言相信大家都聽說過JVM垃圾回收機制，大概就是當我們的記憶體滿了的話就會進行垃圾回收機制，將不再用到的物件清理掉，這樣我們的記憶體就又可以有空間存東西了，那麼JVM怎麼能夠知道哪些物件不再用到了

辣條君寫爬蟲4【幫小姐姐刪垃圾郵件】

我司系統報錯或者重要監控資料會發郵件到個人郵箱，這就導致郵箱一段時間就好幾百頁了。小姐姐說，辣條君和某昊然誰先幫她刪完郵件，就和誰去看電影。於是乎，打算寫個小指令碼，先拿自己的賬號實驗一下吧~

《深度學習框架PyTorch入門與實踐》示例——利用LeNet進行CIFAR-10分類

平臺及框架：python3 + anaconda + pytorch + pycharm 我主要是根據陳雲的《深度學習框架PyTorch入門與實踐》來學習的，書中第二章的一個示例是利用卷積神經網路LeNet進行CIFAR-10分類。

r k-means 分類結果_別再自己看電泳結果了！通過R語言進行影象識別分類

技術標籤：r k-means 分類結果本文靈感來源於一篇人像識別的博文 https://blog.csdn.net/weixin_43786013/article/details/90266409

垃圾郵件識別與處理

垃圾郵件識別與處理針對煩人的垃圾郵件，在暢郵客戶端中，可根據自己的需求自定義。

利用開源資料集進行釣魚郵件檢測——資料量還是很少啊，黑+白1萬多條

資料集合：https://archive.ics.uci.edu/ml/datasets/Phishing+Websites 示例格式如下： @relation phishing

JS垃圾回收器：V8是如何進行垃圾回收的

在 JavaScript 中記憶體是自動管理的，這也讓一些 JavaScript 開發者誤以為可以不關心記憶體管理，這是一個很大的誤解，本篇是根據網上資料文章整理如有侵犯請聯絡刪除。

sklearn進行垃圾郵件分類

1. 資料讀取

2. shuffle

3. 向量化表示

4. 資料集劃分

5. 建立模型

6. 檢視結果

相關推薦