條件隨機場簡介(CRF)(一)
轉載請註明出處,謝謝。
質量不佳,請多包涵。
Conditional random field(CRF)(條件隨機場) 簡介(一)
1. 標註序列資料
給序列資料進行標籤是很多領域的重要任務,比如生物資訊學、計算語言學、語音識別。例如,資源語言處理中的詞性標註,一個句子中的每個分詞將被標註一個詞性(POS)標籤。
這樣的任務對更高階的自然語言處理任務往往是有幫助的,因為詞性標籤表明了該分詞在句子中一些結構作用。
進行序列標註或序列分割的最常用的方法是用隱馬爾可夫模型(hidden Markov models)(HMMs)或者有限概率自動機(probabilistic finite-state automata )去估計給定句子的情況下,最大可能的標籤序列。隱馬爾可夫模型是一種生成模型,擬合的是聯合概率分佈p(X, Y),其中X和Y是多個隨機變數,分別代表觀測序列(譯者:比如句子)和相應的標籤序列。為了得到這樣的聯合概率分佈(一種本質的,生成模型),我們必須要能便利所有可能的觀測序列,而這在很多領域很多時候是不可能的。在資料較為簡單的情況下,我們可以合理地假設,某一時刻,觀測序列的取值是和之前時刻序列的取值是獨立的,但是,在實際的資料之中,觀測序列之間都會有著大範圍的相關關係。
顯然,我們需要一個可以對此建模求解的模型,但我們也不能過於極端地引入無法成立的獨立性假設。其中一個解決的辦法是,我們在給定某一個觀測序列的情況下,對條件概率p(Y |x)進行建模。我們不關心X的概率分佈,而是關心在給定觀測序列的情況下,如何找到一個最優的y,使得p(Y=y |x)取得最大。如果需要,人們可以自己對X給出概率分佈的假設。
Conditional random fields (CRFs) (條件隨機場)便是基於以上的思想,解決序列標註分割任務的一個概率框架。CRFs優於HMMs的地方在於它不需要對觀測序列有嚴格的獨立性假設。此外,CRFs避免了標註的有偏問題(bias),而maximum entropy Markov models(MEMMs)(最大熵馬爾科夫模型)和其他條件馬爾科夫模型則有這一問題。