1. 程式人生 > >【六】樸素貝葉斯演算法

【六】樸素貝葉斯演算法

文字分類的事件模型 Event Models for Text Classification

我們之前介紹了多元伯努利事件模型Multi-variate Bernoulli Event Model,這一方法使用向量{x1,x2,···}表示輸入文字,向量的長度為字典的長度,xi=1表示字典中第i個次出現,反之則表示不出現,我們之前討論的問題都基於這個假設。

現在我們介紹多項式事件模型Multinomial Event Model,其向量{x1,x2,···}也表示輸入的文字,但其長度為輸入文字的長度,xi的值表示第i個單詞在字典中的位置,此時可將似然函式寫為


為使似然函式最大,對引數的最大似然估計為


使用我們上一講中介紹的拉普拉斯平滑,可將引數估計變為


儘量樸素貝葉斯分佈並不是效果最好的分類器,但其實現較為簡單,可以給出一個較好且方便的實現,因此也有廣泛的用途。

一般大家認為多項式事件模型比多元伯努利事件模型具有更好的表現,一些人認為是因為它考慮了詞出現的次數,但業界對此尚處於爭論中。

神經網路 Nerual Networks

吳恩達教授在他的課程中只給出了關於神經網路的一個簡單介紹,一個典型的神經網路模型如下


其中隱含層(3,4,5)可以是多個具有不同引數的logistic函式,假設其輸出分別為a1(3)、a2(4)、a3(5),則6處的輸入相當於[a1,a2,a3]構成的輸入向量,這與我們一開始的輸入向量是完全不同的,結點6也可當作一個帶引數θ的logistic函式,[a1,a2,a3]經其計算後可得到最終的結果。

神經網路演算法也使用損失函式判斷誤差的大小,我們將損失函式再次給出如下

J(θ)=1/2*Σ(y(i)-h(x(i);theta))^2

神經網路希望經過訓練後,可以取得最小的損失函式。

函式間隔 Functional Margin

函式間隔是支援向量機Support Vector Machine中的概念,SVM是一種很好的(很多人認為是最好的)不需要大量修改引數的監督學習模型。回憶我們之前學過的logistic演算法,函式的影象如下


可見橫座標為0時,我們最不能確定如何對輸入進行分類,因為他屬於每一類的概率都是相同的(都為0.5),而當其橫座標(x=θ^T*X)的值遠遠大於0時,我們可以有很大的把握認為輸入屬於1這一類,同理,當橫座標遠遠小於0時,我們基本可以認為其屬於0類。綜上所述,我們希望使計算的結果間距離越大越好

,在二維平面上可直觀理解如下


上圖中的斜線即我們計算(通過logistic或者SVM等分類演算法)後的分界線,在更高為情況下它可能代表一個超平面,斜線兩邊分別是兩個不同的類。注意到A點距離分界線非常遠,因此我們基本可以確定A點屬於X這一類,而C點距離分界線非常近,雖然根據分界線我們可以將其認為屬於X類,但其也有較大的可能屬於O類。因此我們希望達到的最好情況是:給定一個訓練集,我們設法找到一條邊界是我們可以確定我們的結果比較正確,即所有點都離分界線較遠

約定

為了使SVM的討論更方便些,我們會修改一些之前的約定。我們將之前分類的結果集{0,1}轉化為{-1,1}。回憶到之前我們對於一個具有n個引數的訓練集輸入,我們設定引數θ是一個n+1維的向量,並將訓練集的輸入增加一維x0=1,現在我們將分類器函式修改如下

此時W、X均為長度為n的向量,b為標量(起到了之前x0=1的作用)。上述的函式g(z)=1 if z>=0 並且 g(z)=-1 if z<0

我們將函式間隔定義為注意到當y(i)=1即第i個輸入屬於1類時,W^T+b越大,則函式間隔越大,同樣的,當y(i)=-1即第i個輸入屬於-1類時,W^T+b越小(負數),則函式間隔越大。這與我們希望達到的目標是一樣的。但我們注意到,當我們把w和b同比例擴大時,比如我們用W=2W替代之前的W,用b=2b代替之前的b,則在輸入沒有改變的情況下,函式間隔擴大了2倍,這表明我們可以不做任何有意義的改變便可將函式間隔無限擴大。為了解決這一問題,我們增加了一個歸一化限制,即||W||=1。

定義訓練集的函式間隔,這是每一個輸入函式間隔的最小值。

幾何間隔 Geometric Margin


我們的分類方式如上圖所示,斜線為分類線(超平面),W為法向量,假設A點為第i組輸入,其到分界線的距離即為線段AB的長度γ(i)。按照幾何學的知識,我們可以計算AB的長度為考慮到分類的結果y(i),我們將長度的計算方式擴充套件為

同理,我們定義訓練集的幾何間隔為

我們可以得到幾何間隔與函式間隔的關係為 幾何間隔=函式間隔/||W||

//這裡是分割線~
//順便給自己的公眾號打個廣告,希望大家多多關注~
//關注我的公眾號可以看到更多有意思的東西哦