樸素貝葉斯方法進行文字分類
阿新 • • 發佈:2019-01-22
1. 引言
貝葉斯方法是一個歷史悠久,有著堅實的理論基礎的方法,同時處理很多問題時直接而又高效,很多高階自然語言處理模型也可以從它演化而來。因此,學習貝葉斯方法,是研究自然語言處理問題的一個非常好的切入口。
2. 貝葉斯公式
貝葉斯公式就一行:
P(Y|X)=P(X|Y)P(Y)P(X)
而它其實是由以下的聯合概率公式推匯出來:
P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)
其中
額,恩,沒了,貝葉斯最核心的公式就這麼些。
3. 用機器學習的視角理解貝葉斯公式
在機器學習的視角下,我們把X=>特徵
, Y=>結果
對吧)。在最簡單的二分類問題(是
與否
判定)下,我們將
P(“屬於某類”|“具有某特徵”)=P(“具有某特徵”|“屬於某類”)P(“屬於某類”)P(“具有某特徵”)
我們嘗試更口(shuo)語(ren)化(hua)的方式解釋一下上述公式:
P(“屬於某類”|“具有某特徵”)= 在已知某樣本“具有某特徵”的條件下,該樣本“屬於某類”的概率。所以叫做『後驗概率』。
P (“具有某特徵”|“