2018.12.01 作業十二

阿新 • • 發佈：2018-12-05

樸素貝葉斯應用：垃圾郵件分類

1. 資料準備：收集資料與讀取

2. 資料預處理：處理資料

3. 訓練集與測試集：將先驗資料按一定比例進行拆分。

4. 提取資料特徵，將文字解析為詞向量。

5. 訓練模型：建立模型，用訓練資料訓練模型。即根據訓練樣本集，計算詞項出現的概率P(xi|y)，後得到各類下詞彙出現概率的向量。

6. 測試模型：用測試資料集評估模型預測的正確率。

混淆矩陣

準確率、精確率、召回率、F值

7. 預測一封新郵件的類別。

8. 考慮如何進行中文的文字分類（期末作業之一）。

要點：

理解樸素貝葉斯演算法

理解機器學習演算法建模過程

理解文字常用處理流程

理解模型評估方法

#垃圾郵件分類

import csv
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

text = '''As per your request 'Melle Melle (Oru Minnaminunginte Nurungu Vettam)' has been set as your callertune for all Callers. Press *9 to copy your friends Callertune'''

#預處理
def preprocessing(text):
#分詞
tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)] 
#對文字按照句子進行分割
#for sent in nltk.sent_tokenize(text):  
#對句子進行分詞       
#for word in nltk.word_tokenize(sent):          
#print(word)
tokens

#停用詞
stops = stopwords.words('english')
stops
#去掉停用詞
tokens = [token for token in tokens if token not in stops]
tokens
#去掉短於3的詞
tokens = [token.lower() for token in tokens if len(token)>=3]
tokens
#詞性還原
lmtzr = WordNetLemmatizer()
tokens = [lmtzr.lemmatize(token) for token in tokens]
tokens
#將剩下的詞重新連線成字串
preprocessed_text = ' '.join(tokens)
return preprocessed_text
preprocessing(text)


#讀資料
import csv
file_path = r'C:\Users\s2009\Desktop\email.txt'
sms = open(file_path,'r',encoding = 'utf-8')
sms_data = []
sms_target = []
csv_reader = csv.reader(sms,delimiter = '\t')
#將資料分別存入資料列表和目標分類列表
for line in csv_reader:
    sms_data.append(preprocessing(line[1]))
    sms_target.append(line[0])
sms.close()

print("郵件總數為：",len(sms_target))
sms_target



#將資料分為訓練集和測試集
import numpy as np
sms_data=np.array(sms_data)
sms_label=np.array(sms_label)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(sms_data,sms_target,test_size=0.3,random_state=0,startify=sms_target)
print(len(x_train,len(x_test)))
#將其向量化
from sklearn.feature_extraction.text import TfidfVectorizer   
##建立資料的特徵向量
vectorizer=TfidfVectorizer(min_df=2,ngram_range=(1,2),stop_words='english',strip_accents='unicode',norm='12')
X_train=vectorizer.fit_transform(x_train)
X_test=vectorizer.transform(x_test)




import numpy as np               
##觀察向量
a = X_train.toarray()
#X_test = X_test.toarray()
#X_train.shape
#X_train
for i in range(1000):            
##輸出不為0的列
    for j in range(5984):
        if a[i,j]!=0:
            print(i,j,a[i,j])

#樸素貝葉斯分類器
from sklearn.navie_bayes import MultinomialNB
clf= MultinomialNB().fit(X_train,y_train)
y_nb_pred=clf.predict(X_test)

#分類結果顯示
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

#x_test預測結果
print(y_nb_pred.shape,y_nb_pred)
print('nb_confusion_matrix:')
#混淆矩陣
cm=confusion_matrix(y_test,y_nb_pred)
print(cm)
print('nb_classification_report:')
#主要分類指標的文字報告
cr=classification_report(y_test,y_nb_pred)
print(cr)

#出現過的單詞列表
feature_name=vectorizer.get_feature_name()
#先驗概率
coefs=clf_coef_ 
intercept=clf.intercept_
#對數概率p(x_i|y)與單詞x_i對映
coefs_with_fns=sorted(zip(coefs[0],feature_names))

n=10
#最大的10個與最小的10個單詞
top=zip(coefs_with_fns[:n],coefs_with_fns[:-(n+1):-1])
for (coef_1,fn_1),(coef_2,fn_2) in top:
    print('\t%.4f\t%-15s\t\t%.4f\t%-15s' % (coef_1,fn_1,coef_2,fn_2))

2018.12.01 作業十二

樸素貝葉斯應用：垃圾郵件分類 1. 資料準備：收集資料與讀取 2. 資料預處理：處理資料 3. 訓練集與測試集：將先驗資料按一定比例進行拆分。 4. 提取資料特徵，將文字解析為詞向量。 5. 訓練模型：建立模型，用訓練資料訓練模型。即根據訓練樣本集，計算詞項出現的概率P(xi|y)，後得到各類下詞

2018.12.2第十二節課

使用Apache服務部署靜態網站 SELinux服務有三種配置模式， enforcing：強制啟用安全策略模式，將攔截服務的不合法請求。 permissive：遇到服務越權訪問時，只發出警告而不強制攔截。 disabled：對於越權的行為不警告也不攔截。

2018.11.15 作業十

分類與監督學習，樸素貝葉斯分類演算法 1.理解分類與監督學習、聚類與無監督學習。簡述分類與聚類的聯絡與區別。聯絡：分類與聚類都是對物件的一種劃分。分類是我們給物件分為幾個類。聚類是我們把相似的東西集中在一起。分類要事先定義好類別，類別數不變。聚類的類別是在聚類過程中自動生成的。分類器

12.CCNA第十二天-PPP廣域網點到點協議

PPP point-to-point protocol 點到點協議一種常見的故障序列鏈路兩端封裝格式不一致，導致介面up 協議down Serial1/0

day164-2018-12-01-英語流利閱讀-待學習

長壽的煩惱：日本該如何應對老齡化問題？ Lala 2018-12-01 1.今日導讀隨著科技的發展和醫療水平的進步，人類的平均壽命越來越長，而這種長壽也帶來了一個社會問題，就是人口老齡化。持續走低的出生率和高達 80 歲的人均預期壽命，預示著未來的

2018/12/01 一個64位作業系統的實現第三章匯入kernel.bin

P59頁提到的搜尋核心檔案kernel.bin檔案我從0做起: 1、: 生成一個虛擬軟盤輸入命令: ./bximage [輸入1]: 1 建立一個虛擬空間 [輸入2]: fd 建立一個軟盤空間 [輸入3]: 1.44 建立的空間的大小為1.44MB [輸入4]: boot.img 給虛擬的軟

2018/12/01 一個64位作業系統的實現第四章匯入kernel.bin(2)

　　在做程式4-1的實驗的時候, 我刪除了之前的虛擬軟盤和boot.bin、loader.bin、kernel.bin等二進位制檔案, 從頭開始新建虛擬軟盤等等, 試驗成功後. 我嘗試的將原來的kernel.bin 檔案刪除後, 將程式4-2中的kernel.bin檔案複製到bochs-2.6.9資料夾中,

2018/12/01 一個64位作業系統的實現第四章匯入kernel.bin(5)

參照之前的部落格, 我直接將程式4-5中生成的kernel.bin程式碼複製到bochs-2.6.9資料夾中, 使用部落格中的描述將kernel.bin載入虛擬軟盤的命令, 執行後, 得到成功的結果: 之後又按照書本上的要求將程式4-目錄下的main.c檔案中的 i = 1/0; 修

2018/12/01 一個64位操作系統的實現第四章內存管理(1)

文件的 ade png oot mage make 源文件 href http 本來打算刪掉源文件的kernel.bin文件, 然後直接用程序4-6中make生成的kernel.bin替代, 然而不行, 可能是我操作錯誤, 我直接將boot.img boot.bin loa

2018/12/01 一個64位操作系統的實現第四章導入kernel.bin(2)

64位操作系統 bin文件 color 文件刪除 mage inf 操作系統技術分享 http 　　在做程序4-1的實驗的時候, 我刪除了之前的虛擬軟盤和boot.bin、loader.bin、kernel.bin等二進制文件, 從頭開始新建虛擬軟盤等等, 試驗成功後.

Python練習-生成器、迭代器-2018.12.01

如果列表元素可以按照某種演算法推算出來，可以在迴圈的過程中不斷推算出後續的元素。這樣就不必建立完整的list，從而節省大量的空間。在Python中，這種一邊迴圈一邊計算的機制，稱為生成器：generator。 #將列表生成式的[]改為（）得到generator，通過for迴圈得到generator的下

2018-12-01

8012年的最後一個月最後一個月的第一週。one week one cap！大概是資料庫考完了，會有一種很大心勁去幹另一件事的衝動，去圖書館借了關於微服務的書，不得不說，圖書館是真的贊，這方面的書還不少這周過的很怪，時間結構分的很不合理，原本週一考試的資料庫，因為一些原因被推遲到週四，

一號團隊-團隊任務3:每日立會（2018-12-01）

一.基本資訊團隊序號：一號開發的軟體名稱：Java教學官網撰寫人：張浩洋學號:2016035107283 職務:專案經理二.團隊彙報 1.彙

javascript【2018.12.01】

<html> <head> <title>this is title</title> </head> <body> <script type="text/javascript"> alert("d

瞭解認識學習python 2018.12.01

大二下學期的學習中，讓我無意中瞭解到了python語言，聽說了這門神奇的語言，然後我在大三上學期快期末（就是現在）準備正式開始投入時間精力去了解他。通過網路和資料和自己有一定的c語言基礎的前提下對python也提前進行了簡單的瞭解和理解： python不同於C語言這類很底層的語言，c語言是

CSS 【2018.12.01】

<!DOCTYPE html> <html> <head> <title>下拉選單例項</title> <meta charset="gbk"/> <style type="text/css">

2018.12.4作業

1. 寫一段程式實現以下功能　　讀入使用者輸入的姓名，列印"你好！xxx",要求輸出的字串佔20個寬度，不夠補*,居中對齊 a = input('輸入姓名:') b = '你好：'+a print('{:*^20}'.format(b)) 　　 2.人類的思維

python 2018.12.5作業

定義一個字串"python的創始人是Guido",試分別打印出"Guido"，"odiuG", "ph的人uo" 1 s = "python的創始人是Guido" 2 print(s[11:]) 3 print(s[15:10:-1]) 4 print(s[::3])

2018-12-6作業

#作業 ##1.編寫一個程式，找出大於200的最小的質數` int a=201; do { int b=2; boolean x =true; do { if(a%b==0) { x = false;

2018/12/6作業

1.求區間[100, 200]內10個隨機整型數的最大值 import random s = [] for i in range(10): n = random.randint(100,200) s.append(n) print(max(s)) 2.我們將三位整型數的每一位的

2018.12.01 作業十二

樸素貝葉斯應用：垃圾郵件分類

相關推薦