中文 NLP (2) -- 分詞技術
阿新 • • 發佈:2018-12-03
隨著白話文的興起,構成中文的最小獨立單位由字轉入詞。因此分詞是中文處理的第一步,沒有這一步中文處理也就無法再進行下去。
中文分詞有三大流派:
1.機械式分詞法:將文件中的字串與詞典中的詞條逐一匹配,如果命中,則匹配成功。
2.基於語法和規則:主要是為了解決分詞中的第一大難題:歧義切分。因此在分詞的基礎上同時進行句法,語義分析,利用句法和語義資訊進行詞性標註,已解決分詞歧義現象。
3.統計學分詞:根據字串在語料庫中出現的統計頻率來確定是否構成詞。字與字的相鄰共現頻率能夠較好的反應詞的可信度。
目前,比較成功的應用是統計分詞法。語法和規則分詞法尚在試驗階段。。。
兩大分詞標準:
粗粒度:基於詞切分。
細粒度:基於構成詞的最小單位語素進行切分。
目前主流的分詞技術和步驟如下:
字元切分 ----> 查詢核心詞典,將字元切分的結果進行最大匹配(可在一定程度上解決歧義切分的問題),構成一元詞網 ---> 用一元詞網查詢二元詞典,與二元詞典進行最大匹配 -----> 計算二元詞典的詞頻得到每個節點之間的權重,組成詞圖 Graph ------> 採用 NShort 演算法計算最小權重路徑為初分結果 ---> 使用隱馬爾科夫鏈語言模型進行未登入詞識別(詞的元模式詞典和元模式組合頻率詞典)
一元詞典結構如下:
詞語 詞性1 頻率1 詞性2 頻率2 ...
二元詞典結構如下:
詞[email protected]詞2 共現頻率
元模式詞典如下
詞語 元模式1 頻率1 元模式2 頻率2 ...
元模式組合詞典是一個二元詞典,第一行和第一列就是元模式標籤,方陣的每個元素表示以第一個原子詞的標籤為序號和以第二個原子詞的標籤為序號的組合構成未登入詞的詞頻。
人名的元模式部分標籤如下
元模式 | 含義 | 示例 |
B | 姓氏 | [張]三 |
C | 名1 | 張[三] |
D | 名2 | 李二[狗] |
... | ... | ... |