1. 程式人生 > >[NLP] 自動分詞

[NLP] 自動分詞

《統計自然語言處理》學習筆記

由字構詞的漢語分詞方法(2002)

由字構詞的漢語分詞方法的思想:它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於一個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每個字在構造一個特定的詞語時都佔據著一個確定的構詞位置(即詞位)假如每個字只有4個詞位:詞首(B),詞尾(E),詞中(M),單獨成詞(S)

         上海/計劃/到/本/世紀/末/實現/人均/國內/生產/總值/五千美元/。

        上/B 海/E 計/B 劃/E 到/S 本/S 世/B紀/E末/S 實/B現/E 人/B均/E 國/B內/E 生/B產/E 總/B值/E 五/B 千/M美/M元/E 。/S

其中字 包括 漢字 標點符號 外文字母 注音符號 阿拉伯數字等可能出現在漢語文字中的文字元號,所有的這些字元都是又字構詞的基本單元。

分詞結果表示成字標註形式之後,分詞問題就變成了序列標註問題。

通常情況下,使用基於字的判別模型時需要在當前字的上下文中開一個w個字的視窗,在這個窗口裡抽取分詞的相關的特徵。常用的模板有多種(5)。

由字構詞的分詞技術的重要優勢在於,它能夠平衡地看待詞表詞和未登入詞識別問題,文字中的詞表詞和未登入詞都是用統一的字標註過程來實現的分詞過程成為字重組的簡單過程。在學習架構上,既可以不必專門強調詞表詞資訊,也不用專門設計特定的未登入詞識別模組,因此,大大簡化了分詞系統的設計。

 

基於詞感知機演算法的漢語分詞方法(2007)

 

 

 

 

 

 

常用的判別式模型:最大熵,條件隨機場,支援向量機和感知機