樸素貝葉斯——分類模型

阿新 • • 發佈：2021-09-04

樸素貝葉斯的簡介，和基本使用sample。

樸素貝葉斯——分類模型

樸素貝葉斯：首先貝葉斯推論就是通過結論推條件。專業點就是先假定先驗概率，然後通過後驗概率來判斷先驗概率的正確性，若不準確，則修正。（感覺好像邏輯迴歸的反向傳播）

然後樸素的意思是：各個因素相互獨立。互不干擾

優點

樸素貝葉斯發源於古典數學理論，有穩定的分類效率。

對缺失資料不太敏感，演算法也比較簡單，常用於文字分類

分類準確度高，速度快

缺點

由於使用了樣本屬性獨立性的假設，所以如果樣本屬性有關聯時其效果不好

鳶尾花

from sklearn.naive_bayes import GaussianNB
from sklearn import datasets
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
feature = iris.data
target = iris.target

g = GaussianNB()
g.fit(x_train,y_train)
g.score(x_test,y_test) #0.8333333333333334

# 檢視第一條測試資料的分類
g.predict(x_test[1].reshape((1,-1)))

tmp = g.predict_proba(x_test[10].reshape(1,-1))  #獲得預測值，求和=1，注意這裡沒有取log
import numpy as np
data= np.around(tmp, 2)  #保留兩位小數
data

手寫數字

import sklearn.datasets as datasets
import numpy as np
digist = datasets.load_digits()
feature= digist.data
target = digist.target

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.1,random_state=2020)

#訓練模型
g = GaussianNB()
g.fit(x_train,y_train)

g.score(x_test,y_test)#0.8333333333333334

y_pred = g.predict(x_test)
print('模型分類結果:',y_pred[:10])
print('真實的分類結果:',y_test[:10])

#看各種分類的概率 其中4的概率也是最大的
tmp = g.predict_proba(x_test[3].reshape(1,-1))  
data= np.around(tmp, 2) 
data

# g.predict_log_proba(x_test[3].reshape(1,-1))  這個是把概率取log了，就不會發生很大的精度誤差了

資料使用- 實戰：資料使用fetch_20newsgroups中的資料，包含了20個主題的18000個新聞組的帖子

什麼是TF-IDF

在資訊檢索中，tf-idf（詞頻-逆文件頻率）是一種統計方法，用以評估一個單詞在一個文件集合或語料庫中的重要程度。

如果某個詞或短語在一篇文章中出現的頻率高（即TF高），並且在其他文章中很少出現（即IDF高），則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

import sklearn.datasets as datasets
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
news = datasets.fetch_20newsgroups(data_home='./')                  #載入20類新聞資料

feature = news.data#返回的是列表，列表中為一篇篇的文章
target = news.target#返回的ndarray,儲存的是每一篇文章的類別

print(feature[1])

t = TfidfVectorizer()
feature_t = t.fit_transform(feature) #提取Tf_idf

x_train,x_test,y_train,y_test = train_test_split(feature_t,target,test_size=0.01,random_state=2020)

m = MultinomialNB()
m.fit(x_train,y_train)

m.score(x_test,y_test) #0.868421052631579
m.predict(x_test)
m.predict_log_proba(x_test[10])

樸素貝葉斯——分類模型

樸素貝葉斯的簡介，和基本使用sample。樸素貝葉斯——分類模型樸素貝葉斯：首先貝葉斯推論就是通過結論推條件。專業點就是先假定先驗概率，然後通過後驗概率來判斷先驗概率的正確性，若不準確，則修正。（感覺

模型概率和樸素貝葉斯分類器

目錄 Sample Spaces Conditional Probability and Independence Density Functions Expected Value Variance Joint, Marginal, and Conditional Distributions

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

樸素貝葉斯分類學習總結

寫在前面：還是筆記的總結輸出，大佬看了笑笑就好樸素貝葉斯首先我們在小學二年級就學過先驗概率，百度百科給出的解釋：先驗概率（prior probability）是指根據以往經驗和分析得到的概率，個人理解上來

機器學習（3）高斯判別分析&樸素貝葉斯分類器

判別模型與生成模型判別模型判別模型是對觀測資料進行直接分類，常見的判別模型有邏輯迴歸和感知機演算法等。此模型僅對資料進行分類，並不能具象化或者量化資料本身的分佈狀態，因此也無法根據分類生成可

樸素貝葉斯分類器 (Naive Bayes Classifier) python實現

簡單實現來自b站大神的視訊講解：https://www.bilibili.com/video/BV1qs411a7mT 詳情可以看視訊連結，講的非常好。

樸素貝葉斯分類-實戰篇-如何進行文字分類

微信公眾號：碼農充電站pro 個人主頁：https://codeshellme.github.io 上篇介紹了樸素貝葉斯的原理，本篇來介紹如何用樸素貝葉斯解決實際問題。

樸素貝葉斯分類-理論篇-如何通過概率解決分類問題

公號：碼農充電站pro 主頁：https://codeshellme.github.io 貝葉斯原理是英國數學家托馬斯·貝葉斯於18 世紀提出的，當我們不能直接計算一件事情（A）發生的可能性大小的時候，可以間接的計算與這件事情有關的事

機器學習-樸素貝葉斯分類演算法（java，判斷西瓜好壞案例）

技術標籤：機器學習java演算法概率論和高中數學都學習過貝葉斯公式來計算條件概率，A發生下B傳送的概率這種題，比較熟悉。樸素貝葉斯分類演算法或許和這個有點關係吧…

樸素貝葉斯分類

技術標籤：演算法機器學習python 使用場景：文字分類、情感分析和垃圾郵件識別。其中情感分析和垃圾郵件識別都是通過文字來進行判斷，樸素貝葉斯也常用於自然語言處理 NLP 的工具。

貝葉斯決策論&樸素貝葉斯分類器學習筆記

技術標籤：機器學習python 學習目標掌握貝葉斯決策論的原理、樸素貝葉斯分類器的推導過程以及實現方法

樸素貝葉斯分類器Numpy實現【原創程式碼】

技術標籤：個人雜記問題：已知 dayoutlooktemperaturehumiditywindPlaytennis1sunnyhothighweakno2sunnyhothighstrongno3overcasthothighweakyes4rainmildhighweakyes5raincoolnormalweakyes6raincoolnormalstr