1. 程式人生 > >樸素貝葉斯方法進行文字分類

樸素貝葉斯方法進行文字分類

1. 引言

貝葉斯方法是一個歷史悠久,有著堅實的理論基礎的方法,同時處理很多問題時直接而又高效,很多高階自然語言處理模型也可以從它演化而來。因此,學習貝葉斯方法,是研究自然語言處理問題的一個非常好的切入口。

2. 貝葉斯公式

貝葉斯公式就一行:

P(Y|X)=P(X|Y)P(Y)P(X)

而它其實是由以下的聯合概率公式推匯出來:

P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

其中P(Y)叫做先驗概率,P(Y|X)叫做後驗概率,P(Y,X)叫做聯合概率。

額,恩,沒了,貝葉斯最核心的公式就這麼些。

3. 用機器學習的視角理解貝葉斯公式

在機器學習的視角下,我們把X理解成“具有某特徵”,把Y理解成“類別標籤”(一般機器學習問題中都是X=>特徵Y=>結果對吧)。在最簡單的二分類問題(判定)下,我們將Y理解成“屬於某類”的標籤。於是貝葉斯公式就變形成了下面的樣子:

P(|)=P(|)P()P()

我們嘗試更口(shuo)語(ren)化(hua)的方式解釋一下上述公式:

P(|)=在已知某樣本“具有某特徵”的條件下,該樣本“屬於某類”的概率。所以叫做『後驗概率』

P

(|