學習樸素貝葉斯演算法的5個簡單步驟

阿新 • • 發佈：2019-01-11

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。

而樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。

本文將通過6個步驟帶領你學習樸素貝葉斯演算法。

Step1

什麼是樸素貝葉斯演算法？

樸素貝葉斯演算法是一種基於貝葉斯定理的分類技術，假設在預測變數之間具有獨立性。

給定一個水果，如果水果是黃色的，圓形的，直徑約30釐米，則可以認為它是橘子。

即使對於橘子描述的這些特徵彼此依賴或依賴於其他特徵的存在，但所有的這些特徵都促成了這個水果是橘子的可能性，這就是它被稱為“樸素”的原因。

樸素貝葉斯模型易於構建，特別適用於非常大的資料集。

貝葉斯定理提供了一種從P（c），P（x）和P（x | c）計算後驗概率P（c | x）的方法。

請看下面的等式：

·P（c | x）是給定預測值（x，屬性）的類（c，目標）的後驗概率。

·P（c ）是先驗概率。

·P（x | c）是給定類別的預測概率的似然性。

·P（x）是預測的先驗概率。

簡單來說，貝葉斯定理是基於假設的先驗概率、給定假設下觀察到不同資料的概率，提供了一種計算後驗概率的方法。

Step2

樸素貝葉斯演算法如何工作

讓我們用一個例子來理解它。下面有一個關於天氣和空氣質量的訓練資料集，根據天氣記錄的空氣質量的好壞。

現在，我們需要根據天氣情況對空氣質量的好壞進行分類。

第1步：將資料集轉換為頻率表。

第2步：通過找到陰天概率= 0.28和空氣質量好概率為0.64的概率來建立似然表。

第3步：現在，使用樸素貝葉斯方程計算每個類的後驗概率。具有最高後驗概率的類是預測的結果。

問題：如果天氣晴朗，空氣質量會是好。這個陳述是正確的嗎？

我們可以使用上面討論的後驗概率方法來解決它。

·P（好|晴天）= P（晴天|好）* P（好）/ P（晴天）

·P（晴天|好）= 3/9 = 0.33

·P（晴天）= 5/14 = 0.36

·P（好）= 9/14 = 0.64

·P（好| 晴天）= 0.33 *0.64 / 0.36 = 0.60

得出結論，天氣晴朗空氣質量好具有更高的概率。

NaiveBayes使用類似的方法根據各種屬性預測不同類別的概率。該演算法主要用於文字分類，並且具有多個類的問題。

Step3

樸素貝葉斯的優點和缺點

優點

1）預測測試資料集很容易也很快，在多類預測中表現良好。

2）演算法簡單，常用於文字分類。

3）樸素貝葉斯模型有穩定的分類效率。

4）適合增量式訓練，尤其是資料量超出記憶體時，可以一批批的去增量訓練。

缺點

1）如果分類變數具有在訓練資料集中未觀察到的類別，則模型將指定0（零）概率並且將無法進行預測。

2）獨立預測因子的假設無法實現，我們幾乎不可能得到一組完全獨立的預測變數。

3）需要知道先驗概率，且先驗概率很多時候取決於假設。

4）通過先驗和資料來決定後驗的概率從而決定分類，所以分類決策存在一定的錯誤率。

5）對輸入資料的表達形式很敏感。

step4

樸素貝葉斯演算法的應用

1、實時預測

樸素貝葉斯是一個非常快速的學習分類器，因此，它可以用於實時預測。

2、多類預測

可以預測多類目標變數的概率。

3、文字分類/垃圾郵件過濾/情感分析

樸素貝葉斯分類器對於多類問題和獨立性規則具有更高的成功率，因此，它被廣泛用於文字分類、垃圾郵件過濾和情感分析。

4、推薦系統

樸素貝葉斯分類器和協同過濾一起構建一個推薦系統，這有助於預測使用者是否願意提供資源。

Step5

在Python中使用Naive Bayes構建基本模型

同樣，scikit learn（python庫）將幫助在這裡用Python構建Naive Bayes模型。在scikit學習庫下有三種類型的樸素貝葉斯模型：

-高斯模型

它用於分類，假設特徵屬於某個類別的觀測值符合高斯分佈。在處理連續的特徵變數時，採用高斯模型。

-多項式模型

用於離散計數。例如，假設我們有文字分類問題。在這裡我們可以考慮更進一步的bernoulli試驗，而不是“在文件中出現的單詞”，我們“計算文件中出現單詞的頻率”，你可以將其視為“觀察到結果數x_i的次數”超過n次試驗“。

-伯努利模型

與多項式模型一樣，伯努利模型適用於離散特徵的情況，所不同的是，伯努利模型中每個特徵的取值只能是1和0(以文字分類為例，某個單詞在文件中出現過，則其特徵值為1，否則為0).

根據你的資料集，您可以選擇上面討論的任何模型。以下是高斯模型的示例。

Python 程式碼

#從高斯樸素貝葉斯模型到入庫

sklearn. naive _ bayes 中匯入 GaussianNB

import numpy as np

#分配預測變數和目標變數

x= np.array([[-3,7],[1,5], [1,2], [-2,0],[2,3], [-4,0], [-1,1], [1,1], [-2,2], [2,7], [-4,1], [-2,7]])

Y = np.array([3, 3, 3, 3, 4, 3, 3, 4, 3, 4,4, 4])

#建立高斯分類器

model = GaussianNB()

# 使用訓練集訓練模型

model.fit(x, y)

#預測輸出

predicted= model.predict([[1,2],[3,4]])

print predicted

Output: ([3,4])

以上就是學習樸素貝葉斯的五個簡單步驟，現在就開始學習吧！

歡迎關注公眾號：DC學習助手，探索資料科學之旅

學習樸素貝葉斯演算法的5個簡單步驟

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。本文將通過6個步驟帶領你學習樸素貝葉斯演算法。 Step1 什麼是樸素貝葉斯演算法？樸

機器學習——樸素貝葉斯演算法

概率定義為一件事情發生的可能性概率分為聯合概率和條件概率聯合概率:包含多個條件，且所有條件同時成立的概率記作:P(A,B) P(A,B)=P(A)P(B) 條件概率:就是事件A在另外一個事件B已經發生的條件概率記作:P(A|B)

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

機器學習樸素貝葉斯演算法

樸素貝葉斯屬於監督學習的生成模型，實現簡單，沒有迭代，學習效率高，在大樣本量下會有較好表現。但因為假設太強——特徵條件獨立，在輸入向量的特徵條件有關聯的場景下，並不適用。樸素貝葉斯演算法：主要思路是通過聯合概率建模，運用貝葉斯定理求解後驗概率;將後驗概率最大者對應的類別作

通俗易懂機器學習——樸素貝葉斯演算法

本文將敘述樸素貝葉斯演算法的來龍去脈，從數學推導到計算演練到程式設計實戰文章內容有借鑑網路資料、李航《統計學習方法》、吳軍《數學之美》加以整理及補充 2、條件概率 3、聯合分佈樸素貝葉斯演算法樸素貝葉斯法是基於貝葉斯定

機器學習筆記5——樸素貝葉斯演算法

在上一講中，我們瞭解到了樸素貝葉斯以及laplace平滑。這一小節中，我們將要改進樸素貝葉斯演算法。原有的樸素貝葉斯中的特徵值xi是隻取0和1兩個值，現在要對樸素貝葉斯進行一般化，以適應於特徵值取值範圍為{1,2,...,k}這種情況。一般化過程中，對p(x

機器學習回顧篇（5）：樸素貝葉斯演算法

1 引言說到樸素貝葉斯演算法，很自然地就會想到貝葉斯概率公式，這是我們在高中的時候就學過的只是，沒錯，這也真是樸素貝葉斯演算法的核心，今天我們也從貝葉斯概率公式開始，全面擼一擼樸素貝葉斯演算法。 2 貝葉斯概率公式 2.1 聯合概率與全概率公式定義1：完備事件組 ${A_1} \cup {A_2

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

機器學習--樸素貝葉斯分類演算法學習筆記

一、基於貝葉斯決策理論的分類方法優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對於輸入資料的準備方式較為敏感。適用資料型別：標稱型資料。現在假設有一個數據集，它由兩類資料構

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

《統計學習方法》筆記——樸素貝葉斯演算法

樸素貝葉斯演算法概述樸素貝葉斯（naive Bayes）法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對於給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出y。

生成學習演算法之樸素貝葉斯演算法

2 樸素貝葉斯演算法在GDA中，特徵向量是連續的實值向量。現在讓我們討論一種不同的學習演算法，在這個演算法中，是離散值。對於我們的激勵的例子，考慮使用機器學習建立一個電子郵件的垃圾郵件過濾器。這裡，我們希望根據它們是未經請求的商業（垃圾）電子郵件還是非垃圾郵件進行分

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

本講大綱： 1.樸素貝葉斯（Naive Bayes） 2.神經網路（Neural Networks） 3.支援向量機（Support vector machines） 1.樸素貝葉斯前面講的主要是是二元值的特徵，更一般化的是xi可以取{1，2，3

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（4）——樸素貝葉斯模型樸素貝葉斯模型（Naive Bayes Model），是一種基於貝葉斯定理與特徵條件獨立假設的分類方法，與決策樹模型（Decision Tree Model）同為目前使用最廣泛的分類模型之一，在各個領域都有廣泛的應用，例如我們經常會用到的垃圾

《統計學習方法》+樸素貝葉斯演算法+C++程式碼（簡單）實現

首先，學習樸素貝葉斯演算法得了解一些基本知識，比如全概率公式和貝葉斯公式，這些知識隨便找一本書或者在網上都能夠獲得。在此，這裡僅關注貝葉斯演算法本身，以及其具體的實現（以例4.1的例子為參考）。貝葉斯演算法：程式設計實現以上演算法，

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

Scikit-Learn機器學習之監督學習模型案例集-新聞/郵件文字內容分類（樸素貝葉斯演算法模型）

最簡單的辦法下載'20news-bydate.pkz', 放到C:\\Users\[Current user]\scikit_learn_data 下邊就行. 2.1. 手動下載檔案存放到scikit_learn_data/20new

學習樸素貝葉斯演算法的5個簡單步驟

相關推薦