Python高階--樸素貝葉斯

阿新 • • 發佈：2019-01-12

一、貝葉斯

1）貝葉斯原理

這裡寫圖片描述

這裡寫圖片描述
公式中，事件Bi的概率為P(Bi)，事件Bi已發生條件下事件A的概率為P(A│Bi)，事件A發生條件下事件Bi的概率為P(Bi│A)。

2）貝葉斯解決的問題

例項一:
我們想預測北京的冬天某一天下雪,當天堵車的概率是多少P(B|A)
A是下雪P(A) = 0.1
B是堵車P(B) = 0.8
如果某一天堵車,下雪的概率是 0.1 P(A|B) = 0.1
P(B|A) = 0.8*0.1/0.1 = 0.8
可以看出下雪天堵車的概率為0.8
例項二:
一座別墅在過去的 20 年裡一共發生過 2 次被盜，
別墅的主人有一條狗，狗平均每週晚上叫 3 次，
在盜賊入侵時狗叫的概率被估計為 0.9，
問題是：在狗叫的時候發生入侵的概率是多少？

A 事件為狗在晚上叫 P(A) = 3/7
B 為盜賊入侵 P(B) = 2 / (20*365)
P(A|B) = 0.9
狗叫了發生盜賊入侵的概率 P(B|A) = P(A|B)*P(B)/P(A)
(9/10)*(2/(20*365))/(3/7) = 0.0005753424657534247
可以預測到狗叫了，盜賊入侵的概率

二、樸素貝葉斯原理

1）樸素貝葉斯與貝葉斯的關係

樸素貝葉斯是對貝葉斯的一種簡化
通過引入獨立性假設，從而大大降低了計算量
樸素的概念：獨立性假設，假設各個特徵之間是獨立不相關的

獨立性假設：

一直小狗是母狗與這隻狗是一個泰迪這兩個假設就相互獨立

非獨立性假設：

庫裡是籃球運動員與庫裡的投籃很準
這兩個特徵有關係，因為庫裡是籃球運動員，訓練很刻苦，多以投籃很準。

2）實際中主要用於自然語言處理

三、3種貝葉斯模型

1）導包、獲取資料

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

取前兩列繪圖檢視

data = iris.data[:,:2]  # 所有行 前兩列  特徵值 

target = iris.target  # 目標值
plt.scatter(data[:,0],data[:,1],c=target)

這裡寫圖片描述

2）高斯分佈樸素貝葉斯

高斯樸素貝葉斯一般是用來對符合正態分佈的資料進行分類的
這類資料的分佈一般是中間多周圍少

1、呼叫建構函式獲取模型並訓練

gnb = GaussianNB()
gnb.fit(data,target)

2、測試資料

x = np.linspace(data[:,0].min(),data[:,0].max(),100)
y = np.linspace(data[:,1].min(),data[:,1].max(),100)
xx,yy = np.meshgrid(x,y)
X_test = np.c_[xx.flatten(),yy.flatten()]

3、模型預測

y_ =gnb.predict(X_test)

4、預測資料繪圖

# 建立指定點的顏色
from matplotlib.colors import ListedColormap
cmap1 =ListedColormap(['r','g','b'])

plt.scatter(X_test[:,0],X_test[:,1],c=y_)
plt.scatter(data[:,0],data[:,1],c=target,cmap=cmap1)

這裡寫圖片描述

5、簡單看分類的準確率

取所有特徵，並且要把資料集分成訓練集和測試集

#自帶的可以打亂順序並將資料集分成訓練集和測試集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data,target,test_size=0.2)

#獲取模型並訓練
gnb = GaussianNB()
gnb.fit(X_train,y_train)

#獲取準確率
gnb.score(X_test,y_test)

0.9666666666666667

3）多項式分佈樸素貝葉斯

適用於文字資料（特徵表示的是次數，例如某個詞語的出現次數）

4）伯努利分佈樸素貝葉斯

適用於伯努利分佈，也適用於文字資料（此時特徵表示的是是否出現，例如某個詞語的出現為1，不出現為0）

絕大多數情況下表現不如多項式分佈，但有的時候伯努利分佈表現得要比多項式分佈要好，尤其是對於小數量級的文字資料

四、文字分類實戰

對簡訊進行二分類，資料為SMSSpamCollection

1）載入資料

import pandas as pd
from pandas import Series,DataFrame

# spam是垃圾郵件 ham是正常郵件
df = pd.read_table('./data/SMSSpamCollection.tsv',header=None)
df   # 最開始的一列不是列索引 header=None

資料處理

data = df[1]  # 內容 （特徵值）
target = df[0]  # 目標值

2）使用機器學習模型對郵件進行分類

1、獲取模型

mnb = MultinomialNB()
bnb = BernoulliNB()

2、訓練模型

注意：不能直接用文字內容去訓練機器學習模型
mnb.fit(data,target) 機器學習模型肯定無法直接對文字資訊進行學習
我們需要對文字資訊進行特徵值抽取
最後是使用文字的特徵值對機器學習模型進行訓練

3、對訓練集處理

from sklearn.feature_extraction.text import TfidfVectorizer

'''
feature_extraction 特徵抽取
text 文字特徵的抽取
Tfidf Vectorizer   詞頻逆文件頻率
Tfidf tf idf
tf term frequency 詞頻 詞語在文章中出現的頻率
idf inverse document frequency 逆文件頻率
Tfidf 其實就是 某個詞在當前文章中出現的頻率/這個詞語在所有文章中出現的頻率
'''

4、建立詞頻逆文件頻率抽取文章特徵

tf = TfidfVectorizer()  # 用來抽取文章的特徵
tf.fit(data)  # 對所有內容進行學習
data_tf = tf.transform(data)  #對學習的內容進行特徵抽取

5、訓練資料

使用抽取特徵後的資料對機器學習模型進行訓練了

mnb.fit(data_tf,target)
bnb.fit(data_tf,target)

6、測試資料

X_test= [
    'I love you',
    'Please call our customer service as you have WON £1000 cash prize!',
    'Dear customer, welcome to the UAE and thank you for choosing du',
    'Congratulations, you won a prize',
    'We will reply to your inquiry within the next two business days.',
    'this is a spam',
    'prize and cash',
    'Sign up to 3Plus for a chance to win your dream trip for two'
]

對測試資料進行處理
這裡可以直接傳入一個列表列表中是各個文件內容

# 對 測試資料進行 處理
X_test_tf = tf.transform(X_test)

7、測試結果

預測的時候也是先要把測試文件的特徵抽取出來然後讓機器學習模型去預測

資料量大的情況下肯定是多項式樸素貝葉斯更好（資料量小的情況下有可能伯努利效果更好只是可能）

mnb.predict(X_test_tf)

array(['ham', 'spam', 'ham', 'spam', 'ham', 'ham', 'spam', 'ham'],
      dtype='<U4')

bnb.predict(X_test_tf)

array(['ham', 'spam', 'ham', 'ham', 'ham', 'ham', 'ham', 'ham'],
      dtype='<U4')

五、垃圾郵件分類

對email進行二分類，兩種郵件分別在ham和spam目錄下

1）資料讀取

1、先嚐試讀取一個

file_path = './data/email/ham/1.txt'
open(file_path).read()

'Hi Peter,\n\nWith Jose out of town, do you want to\nmeet once in a while to keep things\ngoing and do some interesting stuff?\n\nLet me know\nEugene'

2、將25個檔案都讀取

讀取ham中的所有檔案

ham = []
# ham 目錄下的25個都讀取
for i in range(1,26):
    file_path = './data/email/ham/%d.txt'%(i)
    # print(file_path)
    data = open(file_path,encoding='gbk',errors='ignore').read()
    ham.append([data,'ham'])
df1 = DataFrame(ham)

讀取spam 中的所有檔案

spam = []
# spam 目錄下的25個都讀取
for i in range(1,26):
    file_path = './data/email/spam/%d.txt'%(i)
    # print(file_path)
    data = open(file_path,encoding='gbk',errors='ignore').read()
    spam.append([data,'spam'])

df2 = DataFrame(spam)

將兩個DataFrame合併起來

df = pd.concat([df1,df2])

2）資料處理

1、先對資料整體進行抽取特徵

tf = TfidfVectorizer() # 呼叫建構函式 獲取模型

tf.fit(df[0]) #使用模型對資料進行獲取
tf.transform(df[0])  # 對資料進行轉換

訓練個轉換同時進行

data_tf = tf.fit_transform(df[0])  # 如果 訓練 和 轉換 用的是一個數據集 直接使用fit_transform即可

3）分離訓練資料和測試資料

X_train, X_test, y_train, y_test = train_test_split(data_tf,df[1],test_size=0.25)

# 特徵值是 data_tf 也就是 抽取了特徵後的文字資訊
# 目標值是 df裡1那一列 也就是 標記的 ham和spam
# test_size是切分的比列

4）使用機器學習模型訓練

多項式分佈樸素貝葉斯

mnb = MultinomialNB()  #獲取模型
mnb.fit(X_train,y_train)  #訓練模型
mnb.score(X_test,y_test)  # 查看準確立率

0.9230769230769231

伯努利分佈樸素貝葉斯

bnb = BernoulliNB()
bnb.fit(X_train,y_train)
bnb.score(X_test,y_test)

0.9230769230769231

Python高階--樸素貝葉斯

一、貝葉斯

1）貝葉斯原理

2）貝葉斯解決的問題

二、樸素貝葉斯原理

1）樸素貝葉斯與貝葉斯的關係

獨立性假設：

非獨立性假設：

2）實際中主要用於自然語言處理

三、3種貝葉斯模型

1）導包、獲取資料

取前兩列繪圖檢視

2）高斯分佈樸素貝葉斯

1、呼叫建構函式 獲取模型 並訓練

2、測試資料

3、模型預測

4、預測資料繪圖

5、簡單看分類的準確率

3）多項式分佈樸素貝葉斯

4）伯努利分佈樸素貝葉斯

四、文字分類實戰

1）載入資料

2）使用機器學習模型 對 郵件進行分類

1、獲取模型

2、訓練模型

3、對訓練集處理

4、建立 詞頻逆文件頻率 抽取文章特徵

5、訓練資料

6、測試資料

7、測試結果

五、垃圾郵件分類

1）資料讀取

1、先嚐試讀取一個

2、將25個檔案都讀取

2）資料處理

1、先對資料整體 進行 抽取特徵

3）分離訓練資料和測試資料

4）使用機器學習模型訓練

相關推薦

1、呼叫建構函式獲取模型並訓練

2）使用機器學習模型對郵件進行分類

4、建立詞頻逆文件頻率抽取文章特徵

1、先對資料整體進行抽取特徵