樸素貝葉斯.Laplace平滑.多項式事件模型

阿新 • • 發佈：2019-01-12

《Andrew Ng 機器學習筆記》這一系列文章文章是我再觀看Andrew Ng的Stanford公開課之後自己整理的一些筆記，除了整理出課件中的主要知識點，另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文，希望大家共同討論，共同進步。

網易公開課地址：http://open.163.com/special/opencourse/machinelearning.html

參考博文：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html（樸素貝葉斯分類）

http://blog.sina.com.cn/s/blog_8a951ceb0102wbbv.html

本篇博文涉及課程五：樸素貝葉斯演算法

本課主要內容有：

（1）樸素貝葉斯演算法

（2）Laplace平滑

（3）多項式事件模型

樸素貝葉斯演算法（NB）

在GDA模型中，特徵向量x是連續的實數向量，當x是離散值時，我們就需要採用樸素貝葉斯演算法。

樸素貝葉斯的思想：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。

樸素貝葉斯演算法的應用，最常見的是文字分類問題，例如郵件是否為垃圾郵件。

對於文字分類問題來說，使用向量空間模型（vector space model,VSM）來表示文字。

什麼是向量空間模型？

首先，我們需要有一個詞典，詞典的來源可以是現有的詞典，也可以是從資料中統計出來的詞典，對於每個文字，我們用長度等於詞典大小的向量表示，如果文字包含某個詞，該詞在詞典中的索引為index，則表示文字的向量的index出設為1，否則為0。

下面以垃圾郵件分類問題為例進行說明：

將郵件作為輸入特徵，與已有的詞典進行比對，如果出現了該詞，則把向量的xi=1,否則xi=0,例如：
這裡寫圖片描述
我們要對p(x|y)建模，但是假設我們的詞典有50000個詞，那麼，如果採用多項式建模的方式，會有

個引數，引數太多了。因此，為了對p(x|y)建模，我們做一個假設，稱為樸素貝葉斯假設，由樸素貝葉斯假設推匯出的分類器叫做樸素貝葉斯分類器。樸素貝葉斯假設是：假設給定分類y後，特徵向量中的各個分量xi是條件獨立(conditionally independent）的。也就是說，樸素貝葉斯假設在文字分類問題上是說，文字中出現的某個單詞時不會影響其它單詞在文字中出現的概率。

因此有：
這裡寫圖片描述

模型引數包括：這裡寫圖片描述

極大似然函式的對數函式為：
這裡寫圖片描述
得到引數的最大似然估計值：

對於新樣本，我們就可以按照如下公式計算其概率值：

這裡寫圖片描述

Laplace平滑

樸素貝葉斯存在的問題：
假設在一封郵件中出現了一個以前郵件從來沒有出現的詞，在詞典的位置是35000，那麼得出的最大似然估計為：

這裡寫圖片描述

也就是說，如果一個單詞在之前的垃圾郵件和非垃圾郵件中都部曾出現過，那麼，樸素貝葉斯模型認為這個詞在任何一封郵件出現的概率為0.
如果，這封郵件是一封垃圾郵件，但通過公式得到的是：
這裡寫圖片描述

這樣得到的結果並不是很合理，因為我們不能因為某個事件過去沒有出現過，就判斷該事件出現的概率為0,。

拉普拉斯平滑（Laplace Smoothing）又被稱為加1平滑，是比較常用的平滑方法。平滑方法的存在是為了解決零概率問題。、

Laplace的解決方法是：

對於一個隨機變數z，它的取值範圍是{1,2,3...,k}，對於m次試驗的觀測結果{z(1),z(2),...z(m))}，極大似然估計按照下式計算：

使用了Laplace之後：

這裡寫圖片描述

即在分子上+1，在分母上+變數能取到的個數。

因此，在樸素貝葉斯問題，通過laplace平滑修正後：

這裡寫圖片描述

多項式事件分佈

上面的這種基本的樸素貝葉斯模型叫做多元伯努利事件模型，該模型有多種擴充套件，一種是每個分量的多值化，即將p(xi|y)由伯努利分佈擴充套件到多項式分佈；還有一種是將連續變數值離散化。例如以房屋面積為例：

這裡寫圖片描述

還有一種，與多元伯努利有較大區別的樸素貝葉斯模型，就是多項式事件模型。

多項式事件模型改變了特徵向量的表示方法：

在多元伯努利模型中，特徵向量的每個分量代表詞典中該index上的詞語是否在文字中出現過，其取值範圍為{0,1}，特徵向量的長度為詞典的大小。

而在多項式事件模型中，特徵向量中的每個分量的值是文字中處於該分量位置的單詞在詞典中的索引，其取值範圍是{1,2,...,|V|}，|V|是詞典的大小，特徵向量的長度為文字中單詞的數量。

例如：在多元伯努利模型下，一篇文字的特徵向量可能如下：

在多項式事件模型下，這篇文字的特徵向量為：

一篇文字產生的過程是：

1、確定文字類別

2、以相同的多項式分佈在各個位置上生成詞語。

例如：x1是由服從p(x1|y)的多項式分佈產生的，x2是獨立與x1的並且來自於同一個多項式分佈，同樣的，產生x3,x4，一直到xn。

因此，所有的這個資訊的概率是這裡寫圖片描述 .

模型的引數為：
                                                                                        這裡寫圖片描述

                                                                                       這裡寫圖片描述

引數在訓練集上的極大似然函式：
這裡寫圖片描述

引數的最大似然估計為：
這裡寫圖片描述

應用laplace平滑，分子加1，分母加|V|，得到：
這裡寫圖片描述

對於式子：

分子的意思是對訓練集合中的所有垃圾郵件中詞k出現的次數進行求和。

分母的含義是對訓練樣本集合進行求和，如果其中的一個樣本是垃圾郵件（y=1），那麼就把它的長度加起來，所以分母的含義是訓練集合中所有垃圾郵件的詞語總長。

所以這個比值的含義就是在所有垃圾郵件中，詞k所佔的比例。

注意這個公式與多元伯努利的不同在於：這裡針對整體樣本求的φk|y=1 ，而多遠伯努利裡面針對每個特徵求的φxj=1|y=1 ，而且這裡的特徵值維度不一定是相同的。

舉例說明多項式事件模型：
假設郵件中有a,b,c三個詞，他們在詞典的位置分別是1,2,3,第一封裡面內容為a,b，第二封為b,a;第三封為a,c,b,第四封為c,c,c。

Y=1是垃圾郵件。
因此，我們有：

那麼，我們可得：

假如有一封信的郵件，內容為b,c。那麼它的特徵向量為{2,3},我們可得：

那麼該郵件為垃圾郵件概率是0.6。

樸素貝葉斯.Laplace平滑.多項式事件模型

樸素貝葉斯.Laplace平滑.多項式事件模型

樸素貝葉斯拉普拉斯平滑（Laplace Smoothing）

樸素貝葉斯的三個常用模型：高斯、多項式、伯努利

分類-3-生成學習-3-樸素貝葉斯模型、laplace平滑、多元伯努利事件模型、多項式事件模型

樸素貝葉斯分類--多項式模型

機器學習：貝葉斯分類器，樸素貝葉斯，拉普拉斯平滑

sklearn實現多項式樸素貝葉斯

樸素貝葉斯模型、推導、拉普拉斯平滑

深入理解Spark ML：多項式樸素貝葉斯原理與原始碼分析

<Machine Learning in Action >之二樸素貝葉斯 C#實現文章分類

（筆記）斯坦福機器學習第六講--樸素貝葉斯

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

樸素貝葉斯分類算法

利用樸素貝葉斯（Navie Bayes）進行垃圾郵件分類

樸素貝葉斯分類算法介紹及python代碼實現案例

樸素貝葉斯算法資料整理和PHP 實現版本

javascript實現樸素貝葉斯分類與決策樹ID3分類

機器學習系列——樸素貝葉斯分類器（二）

樸素貝葉斯

樸素貝葉斯-Numpy-對數似然

樸素貝葉斯.Laplace平滑.多項式事件模型

相關推薦