中文 NLP （2） -- 分詞技術

阿新 • • 發佈：2018-12-03

隨著白話文的興起，構成中文的最小獨立單位由字轉入詞。因此分詞是中文處理的第一步，沒有這一步中文處理也就無法再進行下去。

中文分詞有三大流派：

1.機械式分詞法：將文件中的字串與詞典中的詞條逐一匹配，如果命中，則匹配成功。

2.基於語法和規則：主要是為了解決分詞中的第一大難題：歧義切分。因此在分詞的基礎上同時進行句法，語義分析，利用句法和語義資訊進行詞性標註，已解決分詞歧義現象。

3.統計學分詞：根據字串在語料庫中出現的統計頻率來確定是否構成詞。字與字的相鄰共現頻率能夠較好的反應詞的可信度。

目前，比較成功的應用是統計分詞法。語法和規則分詞法尚在試驗階段。。。

兩大分詞標準：

粗粒度：基於詞切分。

細粒度：基於構成詞的最小單位語素進行切分。

目前主流的分詞技術和步驟如下：

字元切分 ----> 查詢核心詞典，將字元切分的結果進行最大匹配（可在一定程度上解決歧義切分的問題），構成一元詞網 ---> 用一元詞網查詢二元詞典，與二元詞典進行最大匹配 -----> 計算二元詞典的詞頻得到每個節點之間的權重，組成詞圖 Graph ------> 採用 NShort 演算法計算最小權重路徑為初分結果 ---> 使用隱馬爾科夫鏈語言模型進行未登入詞識別（詞的元模式詞典和元模式組合頻率詞典）

一元詞典結構如下：

詞語 詞性1 頻率1 詞性2 頻率2 ...

二元詞典結構如下：

詞[email protected]詞2 共現頻率

元模式詞典如下

詞語 元模式1 頻率1 元模式2 頻率2 ...

元模式組合詞典是一個二元詞典，第一行和第一列就是元模式標籤，方陣的每個元素表示以第一個原子詞的標籤為序號和以第二個原子詞的標籤為序號的組合構成未登入詞的詞頻。

人名的元模式部分標籤如下

元模式	含義	示例
B	姓氏	[張]三
C	名1	張[三]
D	名2	李二[狗]
...	...	...

中文 NLP （2） -- 分詞技術

中文 NLP （2） -- 分詞技術

簡單NLP分析套路（2）----分詞，詞頻，命名實體識別與關鍵詞抽取

SQL Server橫向擴展：設計，實現與維護（2）- 分布式分區視圖

WEB測試（2）--WEB核心技術之WEB工作過程---URL

淺談分詞算法（1）分詞中的基本問題

（2）docker容器技術思維導圖

CNN for NLP（2）

第11章拾遺5：IPv6和IPv4共存技術（2）_ISATAP隧道技術

中文NLP（1） -- 開源工具 ltp 和 stanford

中文 NLP（9） -- 實體識別

一步一步學區塊鏈（2）工具和技術的介紹

基於Python檢索系統（3）分詞後建立資料結構

jieba（結巴）分詞種詞性簡介

python自動化測試（2）-自動化基本技術原理

java實現NLPIR（ICTCLAS）分詞

中文 NLP（3） -- 四大概率演算法模型之隱馬爾科夫模型 HMM 和維特比演算法 Viterbi

NLP+詞法系列（二）︱中文分詞技術簡述、深度學習分詞實踐（CIPS2016、超多案例）

NLP ---分詞詳解（常見的五種分詞技術二）

NLP ---分詞詳解（常見的五種分詞技術一）

Python自然語言處理實戰（3）：中文分詞技術

中文 NLP （2） -- 分詞技術

相關推薦