1. 程式人生 > 實用技巧 >NLP11:中文分詞綜述

NLP11:中文分詞綜述

1.中文分詞的發展歷程

對380篇英文文獻進行分析,大多是會議論文,來源包括ACL、EMNLP、COLING、IJCNLP等,收錄最多的是ACL。SIGHAN是國際計算語言學協會中文處理特別興趣組。SIGHAN採用多家機構的評測資料組織多次評測(即BakeOff),評測使用封閉測試和開放測試兩種方法。封閉測試只允許使用固定訓練語料學習相應的模型,而開放測試可以使用任意資源。測試使用的評價標準包括準確率、召回率和F值。其中對比的是人工標註的資料集。CIPS-SIGHAN為中文處理資源與評測國際會議。

以SIGHAN和CIPS-SIGHAN的評測為主線,展示歷屆評測的重點內容和相關聯的國際會議、時間,如下圖所示。圖中左側使用不同顏色矩形框區分各個會議,圓形中的數字表示舉辦到第幾屆,評測與會議聯合舉辦則增加了連線。

image-20201022211145828

SIGHAN2005提供的資料集包括訓練集、測試集以及測試集黃金分割標準,除此之外還提供一個用於評分的指令碼。比賽資料包括簡體中文的北京大學PKU資料集和微軟研究院MSR資料集;繁體中文的CityU資料集和AS資料集。

image-20201022212202458

image-20201022212608319

image-20201022212655894

image-20201022212745046

image-20201022212921282

2.中文分詞的關鍵問題及模型演算法

中文分詞

image-20201022225047590

image-20201022225117453

image-20201022225227050

參考文獻:
[1] 唐琳,郭崇慧,陳靜鋒 . 中文分詞技術研究綜述[J]. 資料分析與知識發現,2020,4(2/3):1-17.