1. 程式人生 > >第七章 貝葉斯分類器的推導及實現

第七章 貝葉斯分類器的推導及實現

貝葉斯分類器

1.基本的概率論知識

先驗概率:由以往的資料得到的
後驗概率:得到資訊後再重新加以修正的概率         
R(cix)=j=1NλijP(cjx)

對於每個樣本 x 選擇能使後驗概率 P(cx) 最大的類別標記

基於貝葉斯定理,P(cx) 可以寫成

P(cx)=P(x,c)P(x)=P(c)P(xc)P(x)

先對聯合概率分佈P(x,c)進行建模,再求後驗概率

2.後驗概率的最大化


對於類先驗概率(prior),P(c),是樣本空間中各類樣本所佔的比例,根據大數定律,當樣本足夠充足且獨立同分布時,可以用樣本出現的頻率來擬合概率.

類條件概率P(xc) 可能會出現屬性組合爆炸的情況,一般不能使用簡單的頻率估計.(樸素貝葉斯分類器,就是直接使用)

利用極大似然估計

Dc表示訓練集D中第c類樣本組成的集合,假設這些樣本獨立同分布.則引數θc對於資料集Dc的似然是:

P(Dcθc)=P(xθc)

解決實際問題時,還需要考慮,連乘操作會導致數值的下溢 可以考慮使用對數似然的方法

3.naive bayes classifier 樸素貝葉斯分類器

屬性條件獨立性假設:

屬性之間相互獨立,基於這個假設,可以重新得到公式
P(cx)=P(c)P(xc)P(x)=P(c)P(x)i=1dP(xic)

其中d 是屬性的數目,xix在第i個屬性上的取值

樸素分類器的訓練過程就是基於訓練資料集D來估計類先驗概率P(c),併為每個屬性估計條件概率P(xic)

訓練過程

1.類先驗概率P(c):
Dc表示訓練集D中第c類樣本組成的集合

P(c)=DCD

2.類條件概率P(xic):

2.1對於離散屬性而言:Dc,xi 表示Dc