極大似然估計法推出樸素貝葉斯法中的先驗概率估計公式如何理解
下面的答案將先照《統計學習方法》一書將問題補充完整,以便手上沒這本書的人也能看明白,然後再給出推導過程。
設輸入空間為 n 維向量的集合,輸出空間為類標記集合 {}。輸入為特徵向量 x 屬於輸入空間,輸出為類標記 y 屬於輸出空間。X 是定義在輸入空間上的隨機向量,Y 是定義在輸出空間上的隨機向量。P(X,Y) 是 X 和 Y 的聯合概率分佈。訓練資料集
T={}
由 P(X,Y) 獨立同分布產生。
樸素貝葉斯通過訓練資料集學習聯合概率分佈 P(X,Y)。具體地,學習以下先驗概率分佈及條件概率分佈。先驗概率分佈
條件概率分佈
於是學習到聯合概率分佈 P(X,Y)。(注意上式中的上標表示的是向量的第 n 維,而不是第 n 個訓練資料點)
條件概率分佈
樸素貝葉斯法對條件概率分佈作了條件獨立性的假設。
樸素貝葉斯法分類時,對給定的輸入 x,通過學習到的模型計算後驗概率分佈,將後驗概率最大的類作為輸出。後驗概率計算根據貝葉斯定理進行:
將條件獨立性假設代入上式得:
這是樸素貝葉斯分類的基本公式。於是,樸素貝葉斯分類器可表示為:
注意到分母對所有都是相同的,所以
從上式可以看出,樸素貝葉斯法的學習也就是要估計先驗概率和條件分佈概率,可以應用極大似然估計法估計相應的概率,下面先給出書上的答案,再寫推導過程。
先驗概率
設第 j 個特徵 可能取值的集合為 {},條件概率 的極大似然估計是
式中, 是第 i 個樣本的第 j 個特徵;是第 j 個特徵可能取的第 l 個值;I 為指示函式。
推導過程:
把 和 作為引數。
為敘述方便起見,下面以 代表引數集合 {,}。
首先寫出 log 似然函式
在上式中我們是把 {,,} 作為引數,有這麼多引數,當然因為有等約束,實際引數會少一點,下面會有應用。
現在我們來求上式的極大似然估計的引數估計值。
先說先驗概率 系列引數,上式中只有前半段含有 ,所以在求先驗概率估計值時就只管前半部分。
在繼續之前,需要把
現在我們來求 的估計值。
關於上式最後一步後半部分母的轉換 ,可能有人會困惑,既然現在要轉回 原形,那之前為什麼要使用 的形式?
要注意這裡的 已經不是引數,而是由 決定的一個值,在此對 求偏導的函式中, 是包含了 的,寫成 的形式是為了表明該表示式包含了 ,以免求偏導時把 當作常數而誤消除。
好,繼續。
由上式可得:
按照同樣的方法,可得:
……
上面所有式子左邊和右邊分別相加:
可得:
把上式代入前面的 ,可得:
總之,先驗概率的 的極大似然估計是:
至此,先驗概率的推導完畢。
同理,有興趣的同學可推導條件概率 ,這裡不再贅述
轉自:
李航 統計學習基礎