1. 程式人生 > 其它 >自然語言處理之條件隨機場

自然語言處理之條件隨機場

CRF原理

簡單的條件隨機場大致的形狀與HMM隱馬的形狀相同,但是隱馬是有向無環圖,條件隨機場是沒有標註箭頭方向的,也就是說隱馬假設當前狀態只與前一個狀態有關,當前的隱狀態只與觀測狀態有關,但是條件隨機場就沒有這個假設,當前狀態可能與之前或之後的任何一個狀態有關,而且當前的狀態也不一定與對應的觀測狀態相關,也可能與其它的觀測狀態相關,這也是為什麼它叫做隨機場的原因。這裡值得注意的一點就是條件隨機場是判別模型,即是直接學習Y的後驗概率,而不是求X,Y的聯合概率分佈的,這也是與隱馬的一點區別,條件隨機場給出了概念,我們需要通過模型去學習特徵函式的權重,什麼是特徵函式。

最大熵模型

提到條件隨機場就不得不提最大熵模型了,以骰子每面的概率的為例,最安全的演算法就是保留最大的不確定性,讓熵達到最大,當我們遇到不確定性時,就要保留各種可能性,這就是最大熵的原理。

模型

設狀態節點的集合是Y,觀察變數節點的集合是X,整個條件隨機場的量化模型是兩個集合的聯合概率分佈模型P(X,Y) = P(x1,x2,,,,y1,y2,,,)。根據最大熵原則,找到一個符合所有邊緣分佈並使熵達到最大的模型。