NLP舞動之中文分詞淺析（一）

一、簡介

針對現有中文分詞在垂直領域應用時，存在準確率不高的問題，本文對其進行了簡要分析，對中文分詞面臨的分詞歧義及未登入詞等難點進行了介紹，最後對當前中文分詞實現的演算法原理(基於詞表、統計以及序列標註等演算法)進行了簡要闡述，並對比了現有技術的優缺點，並給出了本文作者在工程應用上的中文分詞調優的經驗分享。

二、引言

中文資訊處理是指自然語言處理的分支，是指用計算機對中文進行處理。和大部分西方語言不同，漢語的詞語之間沒有明顯的空格標記，句子是以字串的形式出現。常規來說，對中文進行處理的第一步就是進行自動分詞，即將字串轉變成詞串，以便後續對中文進行詞法分析，如詞性標註、語義角色標註等。目前有較多優秀開源的中文分詞工具，如jieba、HanLP、ansj、IKAnalyzer、FudanNLP、PKUseg等，為什麼還要探討中文分詞？最主要的原因：在特定的垂直領域，例如醫療健康，中文分詞的泛化能力較差，對特定疾病術語、疾病症狀等分詞準確率較差。在搜尋引擎系統中，採用詞彙、短語、句子等綜合排序，中文分詞的結果間接地對上述排序做貢獻，故而影響了搜尋引擎的排名結果(即期望的搜尋結果未能排在前面)。在推薦系統中，運用自然語言處理技術提供特徵，首當其衝為中文分詞提供詞法分詞，中文分詞的好壞也對推薦結果造成了較大的影響。在對話系統中，若是FAQ型別，則與搜尋引擎處理方式類同，在此不再贅述了；若是非FAQ型別，中文分詞對語義理解會造成一定的困擾，讓對話進行下去或者在儘可能短的輪數完成特定的任務帶來一些困難。綜上所述，為了滿足特定的垂直領域任務，研究中文分詞技術，並構建自動中文分詞勢在必行。

三、中文分詞難點

中文分詞的難點主要集中在分詞歧義與未登陸詞上，其中未登入詞(即不在詞表中，或者不在訓練語料中等)較分詞歧義更加困難一些。分詞歧義主要分為交集歧義、組合歧義以及自然語義歧義，具體內容如下：

1. 交集歧義

我們/ 的/ 士兵/ 同志我們/ 的士/ 兵/ 同志此類情形，一般由分詞方式與詞典造成的，可對大規模語料挖掘，一方面可以挖掘詞彙來擴充套件詞典，另一方面可挖掘句式，進行分詞消歧。

2. 組合歧義

喬峰/ 從/ 馬上/ 下來喬峰/ 從/ 馬/ 上/ 下來此類情形，大多由詞典造成的，可對大規模語料進行挖掘，補充詞典或者進行句式挖掘，進而實現分詞消歧。

3. 自然語義歧義

乒乓球/ 拍賣/ 完了乒乓球拍/ 賣/ 完了此類情形，多種分詞方式在語義上均沒問題，但需結合具體的上下文語境，來選擇正確的中文分詞方式。綜上所述，由於自然語義歧義較為複雜，對文字理解的要求比較高，因此，目前對中文分詞的研究主要集中於交集歧義與組合歧義的處理。此外，未登入詞層出不窮，給中文分詞造成了極大的困難，有些的解決方法依賴新詞發現去實現，並輔以人工校驗並新增入詞庫中，本質上是一種延遲處理的思路，本文作者傾向於在根據句式在大規模語料中進行挖掘。

四、中文分詞演算法

中文分詞演算法從大類上來分，主要分為基於詞表、統計以及序列標註的分詞方式，在特定的應用場景下，可根據情況選擇相應的實現方式。

1. 基於詞表的中文分詞

簡單來說，根據維護的大規模詞典，在詞典中查詢某一個固定長度的字組合，若未能查詢到，則剔除一個字，直至找到一個詞為止。基於詞表的方式主要有正向最大匹配、逆向最大匹配以及雙向最大匹配，以下簡要介紹下逆向最大匹配的實現，其中正向最大匹配與逆向匹配類同，在此就不再贅述了。

圖-1 逆向最大匹配分詞如圖-1所示，為逆向最大匹配分詞的實現，其中橫向箭頭為下一步移動方向，縱向箭頭包含的部分為待查詢字組合。圖中以5最為最大長度詞彙，即從右向左以5作為滑動視窗進行查詢，若查詢到則以前詞的長度，向左整體平移，如圖-1中前詞“同志”，則整體平移至“我們”，若長度不足5，則將整體作為滑動視窗。針對基於詞表的中文分詞實現，相對正向最大匹配而言，逆向最大匹配更符合中文語言表述習慣。在實際應用中，通常會結合正向與逆向，即雙向最大匹配分詞來處理分詞歧義，若正向與逆向分詞的個數相同，則通常選擇單字個數少的實現方式；若個數不相同，可選擇單字個數少的方式，也可以採用啟發式規則，採用長詞優先的策略，或者藉助N-Gram模型統計鄰接詞共現頻率來進行選擇，從而解決分詞歧義的問題。從上面描述可以看出，基於詞表的分詞效率較高，但非常依賴詞典的規模，因而對未登入詞不敏感，採取合適的啟發策略，能在一定程度上解決分詞分歧問題，但是侷限性較大，其分詞工具的典型代表為IKAnalyzer，需要使用者維護較多的領域詞典資料。另外構建詞表時，維護詞彙的頻率對後續統計任務求解最短距離也是一種有利的輔助。

2. 基於統計的中文分詞

承接上文所述，藉助N-Gram模型統計鄰接詞的共現頻率，也可視為鄰接詞間的距離。若將句子的分詞看做有向圖，圖中頂點為字或者詞彙(字的組合)，頂點間的邊的長度（即距離）採用N-Gram模型從大規模語料中統計，並進行演化計算，則將中文分詞問題轉化為求最短路徑問題，如圖-2所示。

NLP舞動之中文分詞淺析（一）

一、簡介

二、引言

三、中文分詞難點

1. 交集歧義

2. 組合歧義

3. 自然語義歧義

四、中文分詞演算法

1. 基於詞表的中文分詞

2. 基於統計的中文分詞

NLP舞動之中文分詞淺析（一）

中文分詞系列（一）雙陣列Tire樹(DART)詳解

Spark 大資料中文分詞統計（一）開發環境搭建

NLP之CRF分詞訓練（六）

中文分詞器（IK）的配置檔案

資料庫分詞查詢的優缺點以及英文和中文各自的分詞方法（一）

機器學習之SVM初解與淺析（一）:最大距離

機器學習之SVM初解與淺析（一）:

分詞統計（一）使用訊飛語言云進行統計

python自然語言處理（一）之中文分詞預處理、統計詞頻

入門科普：一文看懂NLP和中文分詞演算法（附程式碼舉例）

hanlp原始碼解析之中文分詞演算法詳解

python中文分詞器（jieba類庫）

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

Hanlp原始碼解析之中文分詞演算法

python_NLP實戰之中文分詞技術

Elasticsearch筆記六之中文分詞器及自定義分詞器

Elasticsearch之中文分詞器

文字分析之中文分詞

自然語言處理之中文分詞器詳解

NLP舞動之中文分詞淺析（一）

一、簡介

二、引言

三、中文分詞難點

1. 交集歧義

2. 組合歧義

3. 自然語義歧義

四、中文分詞演算法

1. 基於詞表的中文分詞

2. 基於統計的中文分詞

相關推薦