1. 程式人生 > >機器學習期望最大演算法:例項解析

機器學習期望最大演算法:例項解析

01 回顧

已經分析了樸素貝葉斯分類,拉普拉斯修正,半樸素貝葉斯分類器,在這些理論闡述中,都帶有詳細的例子解釋,通過例子理解相關的理論是一種快速消化公式和理論比較不錯的方法。

接下來,介紹一種非常經典的求解隱變數的演算法,這也是一種經典的演算法。讓我們先從最大似然估計入手,在03節真正分析這種演算法。

02 最大似然估計求分佈引數

給定一堆蘋果,裡面有好蘋果,也有壞蘋果。好果的分佈滿足某種概率分佈,也就是拿到第 i 個蘋果的概率為 P(i | theta),其中theta表示好果的分佈滿足某種引數theta的概率分佈,這個theta就是好果分佈情況的一個引數吧。

怎麼求解這個引數theta呢? 我們會從一堆蘋果中,隨機地選取足夠多的蘋果,然後對每個拿到的蘋果標記是好蘋果,還是壞蘋果,比如隨機地選擇了10個蘋果,其中好蘋果標記為 Good,否則為 bad,拿到的序列如下所示:
1 Good
2 Good
3 bad
4 Good
5 Good
6 Good
7 bad
8 Good
9 bad
10 Good

在拿到這些序列後,不就相當於我們拿到一個已知條件嗎:在這批實驗資料中,有7個好果,3個壞果。

根據最大似然估計的理念,既然這10個蘋果序列已經出現了,那麼我們就估計並認為整個樣本中好蘋果的分佈概率為:7/10 = 0.7,即:原序列中好蘋果的分佈規律為:遵從概率為0.7的分佈吧,壞蘋果同樣滿足0.3的概率分佈。

這種根據抽取的一些資料樣本的方法,推算某個樣本的分佈引數的過程,就被稱為最大似然估計,它是根據已有資料來獲得分佈規律的利器。

03 帶有隱變數時求分佈引數theta

現在為了構造出一個隱變數,在上面那個例子基礎上,假設這一批蘋果有的來自煙臺,有的來自威海,這樣無形中增加了一個隱變數:蘋果的出處,這個特徵吧,並且煙臺的蘋果中好蘋果的概率分佈滿足二項分佈,威海的也滿足,這樣相當於我們有兩個分佈,並且都滿足高斯分佈,只不過它們的分佈引數不相同,如:煙臺的好蘋果概率為 theta_yan;威海的好蘋果概率為theta_wei,那麼如何求出這兩個引數獲得分佈規律呢?

這就得藉助經典的Expectation-Maximum演算法,即期望最大演算法了。

首先假定,初始時,theta_yan0 = 0.85,theta_wei0 = 0.80。

然後開始從那一堆蘋果(來自於兩地的混合)中,隨機的取樣了10個,發現有7個好果,3個壞果。那麼出現這種情況的概率是多大呢?因為已經知道了初始時,theta_yan0 = 0.85,theta_wei0= 0.80,所以對於煙臺的蘋果分佈而言,出現這種分佈情況的概率是多大呢?

對於威海的蘋果分佈而言,出現這種分佈情況的概率是多大呢?

那麼選擇的蘋果來自於煙臺的概率為:

那麼選擇的蘋果來自威海的概率 P_wei 自然等於 1 - P_yan 吧。

這樣這10個蘋果中,來自煙臺的好蘋果的個數的期望值是不是就能求出來了:概率乘以好蘋果個數: P_yan * 7;壞果自然等於:P_yan * 3
同理可求出來自威海的好蘋果數量的期望值:P_wei * 7,壞蘋果等於:P_wei * 3 。

以上便是EM演算法的中的E步;那麼M步是怎麼回事呢?

M步是求出下一個迭代引數 theta_yan1 和 theta_wei1的過程,它們的計算原理,就是根據E步計算出來的期望值,具體來說:

theta_wei1的求解公式同上式相似,這樣M步的計算過程也搞定。
再根據以上過程,由 theta_yan1,theta_wei1,得出theta_yan2,theta_wei2,等等。
直至達到某個閾值,迭代結束,這樣theta_yanx,theta_weix就是最終的求解值:煙臺和威海的好蘋果的概率。

04 總結和展望

以上就是EM演算法的求解過程,E步得出屬於隱變數取值的期望,M步根據隱變數取值的期望計算出新的引數theta,這樣不斷迭代下去,直至收斂。

以上這堆蘋果是從煙臺和威海這兩個地方來的吧,一共得到了兩種滿足二項分佈的好蘋果的分佈吧。

那麼如果,我們這堆蘋果是從全國各地選取過來的呢,這時蘋果的分佈情況就由 K 個二項分佈組成吧。

類似的這種資料如果來自於K個滿足高斯分佈中生成出來的模型,稱為高斯混合模型(GMM),它在含有隱變數,且每個簇的高斯分佈引數不同時,對於這樣的聚類任務,GMM是比較理想的聚類演算法。歡迎關注明天的推送:GMM聚類sklearn掉包解析。

謝謝您的閱讀,希望對您有幫助!

請記住:每天一小步,日積月累一大步!

交流思想,注重分析,更注重通過例項讓您通俗易懂。包含但不限於:經典演算法,機器學習,深度學習,LeetCode 題解,Kaggle 實戰。期待您的到來!

這裡寫圖片描述