[NLP] 自動分詞

阿新 • • 發佈：2018-12-04

《統計自然語言處理》學習筆記

由字構詞的漢語分詞方法（2002）

由字構詞的漢語分詞方法的思想：它是將分詞的過程看作字的分類問題。在以往的分詞方法中，無論是基於規則的方法還是基於統計的方法，一般都依賴於一個事先編制的詞表，自動分詞的過程就是通過查詞表作出詞語切分的決策，與此相反，由字構詞的分詞方法認為每個字在構造一個特定的詞語時都佔據著一個確定的構詞位置（即詞位）假如每個字只有4個詞位：詞首（B）,詞尾（E），詞中（M），單獨成詞（S）

上海/計劃/到/本/世紀/末/實現/人均/國內/生產/總值/五千美元/。

上/B 海/E 計/B 劃/E 到/S 本/S 世/B紀/E末/S 實/B現/E 人/B均/E 國/B內/E 生/B產/E 總/B值/E 五/B 千/M美/M元/E 。/S

其中字包括漢字標點符號外文字母注音符號阿拉伯數字等可能出現在漢語文字中的文字元號，所有的這些字元都是又字構詞的基本單元。

分詞結果表示成字標註形式之後，分詞問題就變成了序列標註問題。

通常情況下，使用基於字的判別模型時需要在當前字的上下文中開一個w個字的視窗，在這個窗口裡抽取分詞的相關的特徵。常用的模板有多種（5）。

由字構詞的分詞技術的重要優勢在於，它能夠平衡地看待詞表詞和未登入詞識別問題，文字中的詞表詞和未登入詞都是用統一的字標註過程來實現的分詞過程成為字重組的簡單過程。在學習架構上，既可以不必專門強調詞表詞資訊，也不用專門設計特定的未登入詞識別模組，因此，大大簡化了分詞系統的設計。

基於詞感知機演算法的漢語分詞方法（2007）

常用的判別式模型：最大熵，條件隨機場，支援向量機和感知機

[NLP] 自動分詞

[NLP] 自動分詞

NLP之漢語自動分詞

nlp-jieba分詞

【NLP】分詞演算法綜述

【自然語言處理】詳說中文自動分詞

自然語言處理（NLP）——分詞統計可能用到的模組方法

深度學習----NLP結巴分詞詞性大全

深度學習----NLP結巴分詞基礎

NLP--中文分詞總結

NLP——斯坦福分詞工具簡單使用

NLP: 中文分詞演算法---交集歧義檢測 (cross ambiguity detect)

NLP之CRF分詞訓練（六）

NLP分詞

【NLP漢語自然語言處理與實踐】分詞_筆記

NLP 分詞相關知識

《NLP漢語自然語言處理原理與實踐》第三章詞彙與分詞技術

NLP之jieba分詞原理簡析

【NLP】【二】jieba原始碼分析之分詞

【NLP】【一】中文分詞之jieba

hanlp中文智慧分詞自動識別文字提取例項

[NLP] 自動分詞

相關推薦