1. 程式人生 > >HMM MEMM CRF 差別 聯系

HMM MEMM CRF 差別 聯系

變量 建模 類方法 .com 思想 應用 條件狀態 csdn rand

聲明:本文主要是基於網上的材料做了文字編輯,原創部分甚少。參考資料見最後。

隱馬爾可夫模型(Hidden Markov Model。HMM),最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)以及條件隨機場(Conditional Random Field,CRF)是序列標註中最經常使用也是最主要的三個模型。HMM首先出現。MEMM其次,CRF最後。三個算法主要思想例如以下:

  • HMM模型是對轉移概率和表現概率直接建模,統計共現概率。
  • MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。但MEMMeasy陷入局部最優,是由於MEMM僅僅在局部做歸一化。
  • RF模型中,統計了全局概率,在 做歸一化時,考慮了數據在全局的分布。而不是只在局部歸一化,這樣就攻克了MEMM中的標記偏置(label bias)的問題。

舉個樣例。對於一個標註任務,“我愛北京天安門“,

標註為” s s b e b c e”

  • 對於HMM的話,其推斷這個標註成立的概率為 P= P(s轉移到s)*P(‘我’表現為s)* P(s轉移到b)*P(‘愛’表現為s)* …*P().訓練時。要統計狀態轉移概率矩陣和表現矩 陣。
  • 對於MEMM的話。其推斷這個標註成立的概率為 P= P(s轉移到s|’我’表現為s)*P(‘我’表現為s)* P(s轉移到b|’愛’表現為s)*P(‘愛’表現為s)*..訓練時,要統計條件狀態轉移概率矩陣和表現矩陣。

  • 對於CRF的話,其推斷這個標註成立的概率為 P= F(s轉移到s,’我’表現為s)….F為一個函數,是在全局範圍統計歸一化的概率而不是像MEMM在局部統計歸一化的概率。

當前。最後出現的CRF在多項任務上達到了統治級的表現,所以假設重頭搞應用的話。大家能夠首選CRF。本質上。CRF有下面三個長處:

  • CRF沒有HMM那樣嚴格的獨立性如果條件。因而能夠容納隨意的上下文信息。

    特征設計靈活(與ME一樣) ————與HMM比較

  • 同一時候,因為CRF計算全局最優輸出節點的條件概率。它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。

    --————與MEMM比較

  • CRF是在給定須要標記的觀察序列的條件下。計算整個標記序列的聯合概率分布。而不是在給定當前狀態條件下。定義下一個狀態的狀態分布。

凡事都有兩面,正因為這些長處,CRF須要訓練的參數很多其它,與MEMM和HMM相比,它存在訓練代價大、復雜度高的缺點。

那麽,到底什麽是標記偏置問題呢?還是看個實際樣例吧!

技術分享

基於上圖各邊上的轉移概率簡單進行計算可得每條路徑的概率例如以下:

  • 路徑1-1-1-1的概率:0.4*0.45*0.5=0.09
  • 路徑2-2-2-2的概率:0.2*0.3*0.3=0.018
  • 路徑1-2-1-2的概率:0.6*0.2*0.5=0.06
  • 路徑1-1-2-2的概率:0.4*0.55*0.3=0.066

由此。可知最優路徑為1-1-1-1. 然而。細致觀察可發現上圖中stat1 中每一個結點都傾向於轉移到stat2。這明顯是和直覺不相符的。這就是所謂的標註偏置問題。實際上。造成這一問題的根本原因是每一個節點分支數不同。因為MEMM的局部歸一化特性,使得轉出概率的分布不均衡。終於導致狀態的轉移存在不公平的情況。

怎麽解決這樣的問題呢?先介紹一個最直觀的最粗暴的解決方法,由於我們知道是由於概率分布不均導致的,能夠簡單把每一個節點轉出概率和為1的限制去掉。比方我們簡單把上圖中stat2中每一個結點出發的邊的概率值×10,又一次計算每條路徑的概率例如以下:

  • 路徑1-1-1-1的概率:0.4*0.45*0.5=0.09
  • 路徑2-2-2-2的概率:2*3*3=18
  • 路徑1-2-1-2的概率:0.6*2*5=6
  • 路徑1-1-2-2的概率:0.4*0.55*3=0.66

由此可得最優路徑是2-2-2-2, 這就攻克了MEMM的標記偏置問題。

當然這種方法太粗暴了。CRF則是利用一種全局的優化思路來定向解決的。

至此,這三個算法的差別和聯系基本算講清晰了。以下從機器學習中的概率圖角度來看怎樣區分三者的差別呢?以下這三個圖很清晰地展示了之間的差別和聯系。

技術分享

上圖非常好詮釋了HMM模型中存在兩個如果:一是輸出觀察值之間嚴格獨立,二是狀態的轉移過程中當前狀態僅僅與前一狀態有關(一階馬爾可夫模型)。

技術分享

上圖說明MEMM模型克服了觀察值之間嚴格獨立產生的問題,可是因為狀態之間的如果理論,使得該模型存在標註偏置問題。

技術分享

上圖顯示CRF模型攻克了標註偏置問題,去除了HMM中兩個不合理的如果。

當然,模型對應得也變復雜了。

最後,假設要想細致研究下這三個算法發展歷程的話,請接著閱讀下面部分。

HMM模型將標註任務抽象成馬爾可夫鏈。一階馬爾可夫鏈式針對相鄰標註的關系進行建模,當中每一個標記相應一個概率函數。HMM是一種產生式模型,定義了聯合概率分布p(x,y) ,當中x和y分別表示觀察序列和相相應的標註序列的隨機變量。為了可以定義這樣的聯合概率分布,產生式模型須要枚舉出全部可能的觀察序列,這在實際運算過程中非常困難。所以我們可以將觀察序列的元素看做是彼此孤立的個體, 即如果每一個元素彼此獨立(和naive bayes類似),不論什麽時刻的觀察結果僅僅依賴於該時刻的狀態。

HMM模型的這個如果前提在比較小的數據集(也不全是吧)上是合適的。但實際上在大量真實語料中觀察序列很多其它的是以一種多重的交互特征形式表現的。觀察元素之間廣泛存在長程相關性。比如,在命名實體識別任務中,因為實體本身結構所具有的復雜性,利用簡單的特征函數往往無法涵蓋全部特性,這時HMM的如果前提使得它無法使用復雜特征(它無法使用多於 一個標記的特征。)。這時HMM的弊端就顯現無疑了。突破這一瓶頸的方法就是引入最大熵模型。以下,我們簡介下這個模型,大家會發現ME和HMM具有天然的雜交優勢,不結合天理不容哈。呵呵。

我們知道最大熵模型能夠使用隨意的復雜相關特征,在性能上也超過了Bayes分類器。最大熵模型的長處:首先,最大熵統計模型獲得的是全部滿足約束條件的模型中信息熵極大的模型; 其次。最大熵統計模型能夠靈活地設置約束條件,通過約束條件的多少能夠調節模型對未知數據的適應度和對已知數據的擬合程度; 再次。它還能自然地攻克了統計模型中參數平滑的問題。最大熵模型的不足:首先,最大熵統計模型中二值化特征僅僅是記錄特征的出現是否。而文本分類須要知道特征的強度。因此。它在分類方法中不是最優的; 其次,因為算法收斂的速度較慢,所以導致最大熵統計模型它的計算代價較大。時空開銷大; 再次,數據稀疏問題比較嚴重。最致命的是,作為一種分類器模型,最大熵對每一個詞都是單獨進行分類的,標記之間的關系無法得到充分利用。然而,具有馬爾可夫鏈的HMM模型能夠建立標記之間的馬爾可夫關聯性,這是最大熵模型所沒有的。

好了,如今是時候隆重介紹雜交後的最大熵馬爾科夫模型(MEMM)。簡單來說,MEMM把HMM模型和maximum-entropy模型的長處集合成一個統一的產生式模型,這個模型同意狀態轉移概率依賴於序列中彼此之間非獨立的特征上,從而將上下文信息引入到模型的學習和識別過程中,達到了提高識別的準召率的效果。有實驗證明,MEMM在序列標註任務上表現的比 HMM和無狀態的最大熵模型要好得多。然而,如上面所述。MEMM並不完美,它存在明顯的標記偏置問題。

於是CMU的教授 John Lafferty提出了更先進的CRF模型。

CRF模型具有下面特點:(1)CRF在給定了觀察序列的情況下。對整個的序列的聯合概率有一個統一的指數模型,它具備一個比較吸引人的特性就是其損失函數的凸面性;(2)CRF具有非常強的推理能力,而且可以使用復雜、有重疊性和非獨立的特征進行訓練和推理,可以充分地利用上下文信息作為 特征,還可以隨意地加入其它外部特征。使得模型可以獲取的信息非常豐富;(3)CRF攻克了MEMM中的標記偏置問題。這也正是CRF與MEMM的本質差別所在—-最大熵模型在每一個狀態都有一個概率模型,在每一個狀態轉移時都要進行歸一化。假設某個狀態僅僅有一個興許 狀態,那麽該狀態到興許狀態的跳轉概率即為1。這樣,無論輸入為不論什麽內容,它都向該興許狀態跳轉。而CRFs是在全部的狀態上建立一個統一的概率模型。這 樣在進行歸一化時,即使某個狀態僅僅有一個興許狀態,它到該興許狀態的跳轉概率也不會為1。

最後,我們簡單匯總下實際應用中大放異彩的CRF的優缺點來結束本文。

CRF模型的長處:首先,CRF模型在結合多種特征方面的存在優勢。其次。它避免了標記偏置問題。再次,CRF的性能更好,對特征的融合能力更強。

CRF 模型的不足:首先,特征的選擇和優化是影響結果的關鍵因素。特征選擇問題的好與壞,直接決定了系統性能的高低;其次,訓練模型的時間比ME更長,且獲得的模型非常大。在一般的PC機上可能無法執行。

【1】http://ssli.ee.washington.edu/people/duh/projects/CRFintro.pdf

【2】http://blog.csdn.net/zhoubl668/article/details/7787690

【3】http://blog.csdn.net/caohao2008/article/details/4242308

【4】http://www.cnblogs.com/549294286/archive/2013/06/06/3121761.html

【5】 www.cs.cmu.edu/~epxing/Class/10801-07/lectures/note7.pdf ?

HMM MEMM CRF 差別 聯系