第十一次作業————中文垃圾郵件

阿新 • • 發佈：2018-12-06

import matplotlib.pyplot as plt
import pandas as pd
import string
import codecs
import os
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from wordcloud import WordCloud
from sklearn import naive_bayes as bayes
from sklearn.model_selection import train_test_split

join()：連線字串陣列。將字串、元組、列表中的元素以指定的字元(分隔符)連線生成一個新的字串

os.path.join()：將多個路徑組合後返回

第一個以”/”開頭的引數開始拼接，之前的引數全部丟棄。

以上一種情況為先。在上一種情況確保情況下，若出現”./”開頭的引數，會從”./”開頭的引數的上一個引數開始拼接

file_path = "D:\\chrome download\\test-master"
emailframe = pd.read_excel(os.path.join(file_path, "chinesespam.xlsx"), 0)

print("inspect top five rows") #    審查前5個行
emailframe.head(5)

執行結果：

可以發現，垃圾郵件50條，非垃圾郵件100條

載入停止詞

stopwords = codecs.open(os.path.join(file_path,'stopwords.txt'),'r','UTF-8').read().split('\r\n')

結巴分詞,過濾停止詞，空string，標點等

processed_texts = []
for text in emailframe["text"]:
        words = []
        seg_list = jieba.cut(text)
        for seg in seg_list:
            if (seg.isalpha()) & (seg not in stopwords):
                words.append(seg)
        sentence = " ".join(words)
        processed_texts.append(sentence)
emailframe["text"] = processed_texts

執行結果：

檢視過濾的結果

emailframe.head()

執行結果：

向量化

def transformTextToSparseMatrix(texts):
    vectorizer = CountVectorizer(binary = False)
    vectorizer.fit(texts)
    
    vocabulary = vectorizer.vocabulary_
    print("There are ", len(vocabulary), " word features")
    
    vector = vectorizer.transform(texts)
    result = pd.DataFrame(vector.toarray())
    keys = pd.DataFrame(vector.toarray())
    
    keys = []
    values = []
    for key,value in vectorizer.vocabulary_.items():
        keys.append(key)
        values.append(value)
    df = pd.DataFrame(data = {"key":keys,"values":values})
    colnames = df.sort_values("values")["key"].values
    result.columns = colnames
    return result

矩陣

textmatrix = transformTextToSparseMatrix(emailframe["text"])
textmatrix.head(3)

執行結果：

執行後可以看到，資料集中一共有5982個不同的單詞，即有5982個不同的特徵，維數太多，接下來進行過濾

過濾一些頻繁出現的詞

features = pd.DataFrame(textmatrix.apply(sum, axis=0))
extractedfeatures = [features.index[i] for i in range(features.shape[0]) if features.iloc[i,0] > 5]
textmatrix = textmatrix[extractedfeatures]
print("There are ",textmatrix.shape[1],"word features")

過濾了其中>5的789個單詞，然後按照0.2：0.8劃分資料集和訓練集


train,test,trainlabel,testlabel = train_test_split(textmatrix,emailframe["type"],test_size = 0.2)

使用樸素貝葉斯訓練模型

clf = bayes.BernoulliNB(alpha=1,binarize=True)
model = clf.fit(train, trainlabel)

進行模型評分

model.score(test,testlabel)

第十一次作業————中文垃圾郵件

import matplotlib.pyplot as plt import pandas as pd import string import codecs import os import jieba from sklearn.feature_extraction.text import CountVec

Thunder-Beta發布-事後諸葛亮會議-2017秋-軟件工程第十一次作業

個人條件重要功能交付在線閱讀屬於場景事情 you 小組名稱：Thunder項目名稱：愛閱APP小組成員：王航李傳康翟宇豪鄒雙黛苗威宋雨胡佑蓉楊梓瑞一、設想和目標　　1、我們的軟件要解決什麽問題?是否定義得很清楚?是否對典型用戶和典型場景有清晰的描

2017年軟件工程第十一次作業-每周例行報告

一次表格 ble 技術 height 用戶 row image rowspan 1.PSP表格 C（類別） C（內容） ST（開始時間) ET（結束時間） INT（間隔時間） Δ（凈時間）事後諸葛亮會議對β發布進行總結 2017.11.29 18：

第十一次作業——每周例行報告

cnblogs 代碼行數 family http span 文件的 body 會議字數 PSP C類別 C內容 S開始時間 E結束時間 I時間間隔 T凈時間會議諸葛亮會議 11月24日17時 11月24日17時30分

軟件工程第十一次作業——例行報告

修改 body border 分類圖片整理工程 ges 工作一、本周PSP，類型、任務、開始時間、結束時間、中斷時間，delta時間。要求開始和結束時間包括日期。類型任務開始時間結束時間中斷時間實際用時事後諸葛

201621123042《java程序設計》第十一次作業

forkjoin get 結束 lambda表達式 3.2 net 交流作業所有 1. 本周學習總結 1.1 以你喜歡的方式（思維導圖或其他）歸納總結多線程相關內容。 2. 書面作業本次PTA作業題集多線程 1. 源代碼閱讀：多線程程序BounceThread 1.

17 李騰飛第十一次作業

com alt mage es2017 img class 分享圖片技術分享 src 17 李騰飛第十一次作業

C語言第十一次作業--函數嵌套調用

功能系統題目調試 markdown 本周 cnblogs 解決辦法 2.3 一、實驗作業 1.1 PTA題目 1.2 學生成績管理系統 1.2.1 畫函數模塊圖，簡要介紹函數功能 1.2.2 截圖展示你的工程文件 1.2.3 函數代碼部分截圖 1.2.4 調試結果展示

軟工實踐 - 第十一次作業 Alpha 衝刺（3/10）

隊名：起床一起肝活隊組長部落格：https://www.cnblogs.com/dawnduck/p/9972061.html 作業部落格：班級部落格本次作業的連結組員情況組員1（隊長）：白晨曦過去兩天完成了哪些任務描述：很胖，剛學，照貓畫虎做了登入與註冊介面。展示GitHub當日程式

軟工實踐 - 第十一次作業 Alpha 沖刺（3/10）

and 後臺單元 bubuko 團隊工具 .html 功能實現頁面隊名：起床一起肝活隊組長博客：https://www.cnblogs.com/dawnduck/p/9972061.html 作業博客：班級博客本次作業的鏈接組員情況組員1（隊長）：白晨曦過去

第十一次作業——正太（高斯），多項式，伯努利

1.使用樸素貝葉斯模型對iris資料集進行花分類嘗試使用3種不同型別的樸素貝葉斯：高斯分佈型多項式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，對模型進行驗證。垃圾郵件分類資料準備：用csv讀取郵件資料

福大軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊）

小時存在界面美化 war table 邊界 ... strong 頁面隊名火箭少男100 組長博客林燊大哥作業博客 Alpha 沖鴨鴨鴨鴨鴨鴨鴨鴨鴨！成員沖刺階段情況林燊（組長）過去兩天完成了哪些任務協調各成員之間的工作多次測試軟件運

第十一次作業 - Alpha 事後諸葛亮（團隊）

目錄設想和目標計劃資源變更管理設計/實現測試/釋出團隊的角色，管理，合作總結: 貢獻分全組討論的照片設想和目標 1.我們的軟體要解決什麼問題？是否定義得很清楚？是否對典型使用者和典型場景有清晰的描述？我們軟

福大軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊） Alpha 事後諸葛亮

Alpha 事後諸葛亮 Part 1 前言組長連結作業連結 Part 2 總結思考 - 設想和目標我們的軟體要解決什麼問題？是否定義得很清楚？是否對典型使用者和典型場景有清晰的描述？解決微信端上的輕便

軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊）

軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊）組長本次作業連結現代軟體工程專案Postmortem 設想和目標 1.我們的軟體要解決什麼問題？是否定義得很清楚？是否對典型使用者和典型場景有清晰的描述？ A：我們的軟體要解決的是結對人的互

軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊）

需要 porting 打了在線的漸進新技術耗時精度包括軟工 · 第十一次作業 - Alpha 事後諸葛亮（團隊）組長本次作業鏈接現代軟件工程項目Postmortem 設想和目標 1.我們的軟件要解決什麽問題？是否定義得很清楚？是否對典型用戶和典型場

資料庫第十一次作業

3.1.3 當只有A1為鍵時，所有包含A1的集合都是超鍵，共有2^(n-1)個 A1，A2為鍵，超鍵有2^n - 2^(n-2) 即全集減去不包含{A1,A2}的集合 {A1,A2

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

C語言第十一次博客作業---函數嵌套調用

指定編譯預處理 define result 宏替換多次 clu 菜單 tro 一、實驗作業 1.1 PTA題目題目：遞歸實現順序輸出整數 1. 本題PTA提交列表 2. 設計思路 printdigits函數定義整型變量result存放結果 if n是10的倍數

數據庫第十一周作業

數據 logs alt .com http 第十一周作業 images log 技術數據庫第十一周作業

第十一次作業————中文垃圾郵件

join()： 連線字串陣列。將字串、元組、列表中的元素以指定的字元(分隔符)連線生成一個新的字串

os.path.join()： 將多個路徑組合後返回

第一個以”/”開頭的引數開始拼接，之前的引數全部丟棄。

可以發現，垃圾郵件50條，非垃圾郵件100條

載入停止詞

結巴分詞,過濾停止詞，空string，標點等

向量化

矩陣

執行後可以看到，資料集中一共有5982個不同的單詞，即有5982個不同的特徵，維數太多，接下來進行過濾

過濾一些頻繁出現的詞

過濾了其中>5的789個單詞，然後按照0.2：0.8劃分資料集和訓練集

使用樸素貝葉斯訓練模型

進行模型評分

相關推薦

join()：連線字串陣列。將字串、元組、列表中的元素以指定的字元(分隔符)連線生成一個新的字串

os.path.join()：將多個路徑組合後返回