樸素貝葉斯Naive Bayes-機器學習ML

阿新 • • 發佈：2019-01-01

參考：

1.《統計學習方法》李航

2.先驗概率與後驗概率的區別：http://blog.csdn.net/ouyang_linux007/article/details/7566339

3.樸素貝葉斯方法（Naive Bayes）原理和實現：http://blog.csdn.net/tanhongguang1/article/details/45016421#拉普拉斯平滑

4.分類演算法之樸素貝葉斯分類：https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

5.https://www.cnblogs.com/lianyingteng/p/7799445.html

樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的一種分類演算法。樸素貝葉斯想必是很多人在剛學習機器學習時想去第一個學習的演算法，因為它樸素呀、簡單呀（我記得當時的想法就是這樣）。它真的那麼簡單麼？今天我們就來討論一下這個“簡單”的機器學習演算法。

貝葉斯定理

　　我們都知道貝葉斯定理是基於條件概率得來的，那麼什麼是條件概率呢？條件概率就是在我們知道一個事件發生的情況下，別一個事件發生的概率（突然下雨了，你會去估計你女神有沒有帶傘，這就是一個條件概率）。它的數學表示如下：

　　　　　　

有了條件概率貝葉斯先生就開始尋思了，如何我知道了在B的條件下A的發生概率

，能不能反推出

呢？這時候貝葉斯定理就誕生了：

　　　　　　

條件獨立

　　樸素貝葉斯還有一個特徵條件獨立的要求，那麼什麼是條件獨立呢？我們知道如果兩個事件獨立指的是一個事件的發生不會影響到別一個事件發生的概率，數學上的表示就是：

　　　　　　

條件獨立就是基於事件獨立提出的，我的理解為條件事件獨立，不知準不準確？它要求的不是事件絕對獨立了（A、B可以不獨立），但是呢，兩個事件都加一個限制條件的話，我們就要求它們獨立了（一定是獨立的），其數學表示為：

　　　　　　

樸素貝葉斯

　　這“樸素”兩字代表什麼呢？真的代表“簡單”的意思麼？如果你真這麼想，一陣冷笑，呵..呵..呵..（前段面過某直播平臺，就問了這個問題，我就說是簡單的意思，結果就是一聲冷笑...）。

其實之所以叫“樸素”貝葉斯是因為它假設分類項的各個屬性都是相互獨立的！明白了這事我們再來看看樸素貝葉斯演算法的執行過程吧。

　　樸素貝葉斯的思想也是非常簡單：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，那個概率值大就認為該分類項屬於哪一類，其定理定義如下：

　　（1）設為待分類項，而每個為輸入x的一個特徵屬性。

　　（2）設為一個類別集合。

　　（3）計算

　　（4）如果，則

上面定義的關鍵步驟還是步驟3的求解，這步的求解就用到了樸素貝葉斯的兩大基礎：貝葉斯公式和特徵條件獨立假設，具體求解過程如下：

　　1）給定一組訓練資料集，用於訓練引數。

　　2）統計得到在每種類別下各個特徵屬性的條件概率估計。（這一步使用極大似然估計或者貝葉斯估計）

　　　　　

　　3）根據貝葉斯公式有以下推導：

　　　　　　

　　　依據全概率公式可知，對於所有類別來說為一個常數（全概率公式的定義可以看最後的補充部分）。因此我們只需要比較每一類的，哪個值最大，待分類項就是哪一類！因為我們有特徵條件獨立的假設，因此可以使用條件獨立公式求解：

　　　　　　

說到這，樸素貝葉斯算是講完了，等等。。。還有上面提到的引數估計方法，好吧，下面我們稍微提一下吧。

引數估計

　　樸素貝葉斯通過求解的值來判斷待分類項的類別，上式中的有兩個關鍵部分是需要我們求解的。他們的求解（估計）可以通過極大似然估計和貝葉斯估計來進行。

極大似然估計

　　　　　　　　

其數學表示為

　　　　

貝葉斯估計

　　用極大似然估計可能會出現所要估計的概率值為0的情況，這樣會影響到後驗概率的計算結果，使得分類產生誤差。解決這一問題的方法是採用貝葉斯估計。

　　　　

這其實就等價於在隨機變數各個取值的頻數上賦予一個整數。是指類別k中，第j個特徵取值的個數。lambda等於1是拉普拉斯平滑。

。。。（這一部分講的不好，推薦大家看看李航老師的統計學習方法一書）。。。

樸素貝葉斯的三種模型

　　（1）認為服從多項式分佈的多項式模型

　　（2）認為服從高斯分佈的高斯模型

　　　　　　

　　（3）認為服從伯努利分佈的伯努利模型

樸素貝葉斯的優缺點分析

　　優點：演算法邏輯簡單，易於實現；適用於多分類；演算法穩定，對於不同的資料特點其分類效能差別不大，健壯性比較好；

　　缺點：對輸入資料的表達形式很敏感；

補充部分

全概率公式：

　　對一個較複雜的事件A，如果能找到一伴隨A發生的完備事件組B1、B2```，而計算各個B的概率與條件概率P(A|Bi)相對又要容易些，這時為了計算與事件A有關的概率，可能需要使用全概率公式。

　　

樸素貝葉斯Naive Bayes-機器學習ML

參考： 1.《統計學習方法》李航 2.先驗概率與後驗概率的區別：http://blog.csdn.net/ouyang_linux007/article/details/7566339 3.樸素貝葉斯方法（Naive Bayes）原理和實現：http://blog.

機器學習之樸素貝葉斯(Naive Bayes)

貝葉斯概率以18世紀的一位神學家托馬斯·貝葉斯(Thomas Bayes)的名字命名。一、為什麼叫樸素貝葉斯？樸素貝葉斯是經典機器學習演算法之一，是基於概率論的分類演算法，其原理簡單，易於實現，多使用於文字分類，如垃圾郵件過濾、新聞分類等。樸素貝葉斯中的樸素是來源

2.樸素貝葉斯Naive Bayes

在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。但這點有待驗證，因為具體的問題不同，演算法得出的結果不同，同一個演算法對於同一個問題，只要模式發生變化，也存在不同的識別效能。這點在很多國外論文中已經得到公認，在機器學習一書中也提到過演算法對於屬性的識別情況決定於很多因素，例如訓

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

''' @description ：一級分類：監督學習，二級分類：分類（離散問題），三級分類：貝葉斯演算法演算法優點： a 樸素貝葉斯模型發源於古典數學理論，有穩定的分類效率 b 對缺失的資料不太敏感，演算法也比較簡

基於概率論的分類方法:樸素貝葉斯算法實踐學習

取出對數 pri 場景比例 pro ngs 什麽 inf 關於本文說明，本人原博客地址位於http://blog.csdn.net/qq_37608890，本文來自筆者於2017年12月12日 13:03:46所撰寫內容（http://blog.csdn.n

生成學習演算法_高斯判別分析_樸素貝葉斯_斯坦福CS229_學習筆記

Part IV Generative Learning Algorithms 回顧上一部分的內容，我們解決問題的出發點在於直接對p(y|x;)建模：如線性迴歸中y建模為高斯分佈，邏輯迴歸y建模為伯努利分佈。這樣建模的好處在於可以直接得到x到y的對映關係，理解起來也比較直接。這樣建模

貝葉斯網路（機器學習系列，持續更新中~）

在說貝葉斯規則（Bayes rule）和將貝葉斯規則用於圖模型之前，先讓大家瞭解下機器學習的四個正規化（paradigms），也可以理解為四個流派；連線主義（connectionist）：用現在比較流行的說法就是神經網路，現在用到的工具有Tensorflow

貝葉斯分類器——機器學習(周志華)

貝葉斯分類器貝葉斯決策論貝葉斯決策論是概率框架下實施決策的基本方法。假設有N中可能的類別標記，即Y={c1,c2,...,cN},λij\mathcal{Y}=\{c_1, c_2,...,c_N\}, \lambda_{ij}Y={c1,c2,...

線性迴歸與貝葉斯推理——漫談機器學習

1. 從觀察出發——迴歸問題在統計學中，我們認為一個變數是服從某種理想分佈的，稱為理想變數。而為了獲得理想變數的值，我們需要去觀察這個世界，並得到觀察資料，稱為觀察變數。觀察變數與理想變數之間的函式關係被稱為觀察模型。設觀察資料為xi∈Rp，理想資料為y

樸素貝葉斯Naïve Bayes分類演算法在Hadoop上的實現

1. Naïve Bayes演算法介紹 Naïve Bayes是一個簡單有效的分類演算法，已經得到廣泛使用。本文討論了海量資料（TB級）下Naïve Bayes演算法的實現方法，並給出了Hadoop上的實現方案。 2. Naïve Bayes演算法介紹

【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】（附python代碼）

pytho res tex 機器學習樸素貝葉斯 spa 什麽之一類別目錄　　先驗概率與後驗概率　　什麽是樸素貝葉斯　　模型的三個基本要素　　構造kd樹　　kd樹的最近鄰搜索　　kd樹的k近鄰搜索　　Python代碼(sklearn庫) 先

機器學習---樸素貝葉斯分類器（Machine Learning Naive Bayes Classifier）

垃圾郵件垃圾 bubuko 自己整理 href 極值 multi 帶來樸素貝葉斯分類器是一組簡單快速的分類算法。網上已經有很多文章介紹，比如這篇寫得比較好：https://blog.csdn.net/sinat_36246371/article/details/601

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

機器學習——樸素貝葉斯（Naive Bayes）詳細解讀

在機器學習中，樸素貝葉斯是一個分類模型，輸出的預測值是離散值。在講該模型之前首先有必要先了解貝葉斯定理，以該定理為基礎的統計學派在統計學領域佔據重要的地位，它是從觀察者的角度出發，觀察者所掌握的資訊量左右了觀察者對事件的認知。貝葉斯公式

機器學習2：Naive Bayes（樸素貝葉斯）

參考：https://blog.csdn.net/syoya1997/article/details/78618885貝葉斯模型的講解貝葉斯模型，二分類中展開為 P(H) – 已知的先驗概率 P(H|E) – 我們想求的後驗概率，即在B事件發生後對於事件A概率的評估

機器學習演算法之樸素貝葉斯（Naive Bayes）--第二篇

引言這篇文章主要介紹將樸素貝葉斯模型應用到文字分類任務的技巧和方法。詞袋模型(The Bag of Words Model) 對於機器學習演算法來說，特徵的選擇是一個很重要的過程。那麼如何從文字訓練集中選出好的特徵呢？在自然語言處理中，一個常見

機器學習演算法之樸素貝葉斯（Naive Bayes）--第一篇

引言先前曾經看了一篇文章，一個老外程式設計師寫了一些很牛的Shell指令碼，包括晚下班自動給老婆發簡訊啊，自動衝Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想用自己所學來做一點有趣的事情。我的想法如下：首先我寫個scrapy指令碼來

《機器學習實戰》學習筆記之樸素貝葉斯（Naive Bayes）

原理假如郵箱中有n個單詞，如果returnVec[i]=0代表這個單詞在這封郵件中不出現， returnVec[i]=1代表這個單詞在郵件中出現了。設訓練集中每個郵件都有標記為是垃圾郵件和不是垃圾郵件，是垃圾郵件的分類為1，不是垃圾郵件的分類為0。演算法原理：

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）關鍵字：樸素貝葉斯、python、原始碼解析作者：米倉山下時間：2018-10-25機器學習實戰（Machine Learning in Action,@author: Peter Harri

《機器學習實戰》學習筆記---樸素貝葉斯(Bayes)演算法

作為一名機器學習小白，將自己的學習經歷寫下來，一方面為了總結和回顧，另一方面希望能得到各路大神的批評指正，若能給他人帶來便利就更好不過了。演算法優缺點： (1)優點：在資料較少的情況下，依然有效，可以處理多分類問題； (2)缺點：對輸入資料的準備方