關於貝葉斯的一些個人理解
關於貝葉斯分類器的一些理解
參考西瓜書及一些論壇資料
首先明白咱們用貝葉斯***分類***器想幹什麼:
例如:有一個細胞切片,通過收集樣本,得到一些良性細胞的特徵和噁心細胞的特徵。這時如果出現了一個新的細胞,我們希望可以通過從這個新細胞上面得到一些特徵來判斷這個細胞是什麼性質的細胞。
故,貝葉斯主要用於離散分類任務。
貝葉斯定理:P(c|x)=【P(c)P(x|c)】/P(x)
P(c)是先驗概率,可以通過樣本集求出。P(x)是證據。所以問題的關鍵變成了***求P(x|c)***上
總體決策思想:1、基於最小錯誤率的貝葉斯決策 。2、 基於最小風險的貝葉斯決策
因為對於類條件概率P(x|c)來說,由於它涉及關於x所有屬性的聯合概率,直接根據樣本出現的頻率來估計將會遇到嚴重的困難。比如,有五個西瓜作為樣本{12345}。其中有一個特徵是色澤,觀察五個樣本的色澤發現,樣本123的色澤是青綠色且都是好瓜。但是能根據這就說P(色澤=青綠|好瓜=是)=1麼?顯然是不對的。因為“未被觀測到”和“出現概率為零”顯然是不同的。
具體計算P(x|c)的方法:
1.極大似然估計
當P(x|c)僅被引數向量θc唯一確定。比如,正常情況下,某個瓜是否是好瓜可能由多個特徵決定,比如色澤,根蒂etc。但是我們假設,某類瓜的某個特徵僅有色澤決定。故P(x|c)也可以寫成P(x|θc)。這時可用極大似然估計來估計θc,故而求出P(x|c),比方說我想求P(敲聲=悶響,根蒂=捲曲|好瓜=是)=?。我們就可以等價於求P(敲聲=悶響,根蒂=捲曲|色澤=青綠)的概率。
公式參考西瓜書149頁。
書中對連續迴歸問題也有介紹。
2.樸素貝葉斯分類器
和極大似然估計不同,因為現實生活中P(x|c)很少僅由一個引數向量決定,例如,色澤=青綠的瓜就能決定這個瓜的根蒂?顯然不對。所以引入樸素貝葉斯分類器。
樸素貝葉斯分類器雖然更貼近實際,但是它假設了 1.每種特徵相互獨立即互不影響 2.特徵對結果的影響是相同的。 比如,下雨不影響颳風,下雨對出去玩的影響和颳風對出去玩的影響是相同的。
西瓜書上的例子很詳細。
注意拉普拉斯修正。
這裡應該注意在書上153頁的例子上的公式7.19中,N是種類c有幾種,例如書中84頁表中,瓜可分好瓜和壞瓜,這裡的N=2。公式7.20中,Ni是指特徵X有幾種,同樣的例子中,色澤有三種,則取值為3。
3.半樸素貝葉斯分類器。
樸素貝葉斯分類器中的獨立這個假設在現實生活中很難實現。故引入半樸素貝葉斯分類器。
當每種特徵僅依賴除自己之外的最多一種特徵,則有ODE(獨依賴估計),分為SPODE和AODE,AODE就是SPODE加個外迴圈,和TAN演算法。
TAN演算法是以最大生成樹為基礎的演算法。樹上有例題。最大生成樹我感覺kruskal最好理解。
4.貝葉斯網
當屬性之間不滿足僅依賴一個的時候,即有了貝葉斯網。
貝葉斯網分為三小節:(1)如何判斷屬性之間的依賴關係。(2)如何編織貝葉斯網。(score function)(3)通過貝葉斯網來直接求取P(Q|E)也就是說不用求P(x|c)。(這裡的兩種演算法:吉布斯和EM還不是很懂。)