基本的分詞演算法調研

阿新 • • 發佈：2019-01-06

NLP領域基本技術之一，分詞（word segmentation）

功能是將一句話用最合理的方式劃分成詞集合，符合語言特點和語義連貫。

基於字典詞庫匹配的分詞方法（機械分詞法）

應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞，如：最大匹配法、最小分詞方法等。這類方法簡單高效，但漢語語言複雜豐富，詞典完備性、規則一致性等問題使其難以適應大規模文字的分詞處理。

MM 最大匹配演算法
假定分詞詞典中的最長詞有i個漢字字元，則用被處理文件的當前字串中的前i個字作為匹配欄位，查詢字典。若字典中存在這樣的一個i字詞，則匹配成功，匹配欄位被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞，則匹配失敗，將匹配欄位中的最後一個字去掉，對剩下的字串重新進行匹配處理……

如此進行下去，直到匹配成功，即切分出一個詞或剩餘字串的長度為零為止。這樣就完成了一輪匹配，然後取下一個i字字串進行匹配處理，直到文件被掃描完為止。
基於此的演算法：MMSEG、IKAnalyzer
RMM 逆向最大匹配演算法
ＲＭＭ法的基本原理與ＭＭ法相同 ,不同的是分詞切分的方向與MM法相反，而且使用的分詞辭典也不同。逆向最大匹配法從被處理文件的末端開始匹配掃描，每次取最末端的2i個字元（i字字串）作為匹配欄位，若匹配失敗，則去掉匹配欄位最前面的一個字，繼續匹配。相應地，它使用的分詞詞典是逆序詞典，其中的每個詞條都將按逆序方式存放。在實際處理時，先將文件進行倒排處理，生成逆序文件。然後，根據逆序詞典，對逆序文件用正向最大匹配法處理即可。
最少切分法
使每一句中切出的詞數最小。
雙向匹配法
將正向最大匹配法與逆向最大匹配法組合。先根據標點對文件進行粗切分，把文件分解成若干個句子，然後再對這些句子用正向最大匹配法和逆向最大匹配法進行掃描切分。如果兩種分詞方法得到的匹配結果相同，則認為分詞正確，否則，按最小集處理。

基於詞頻統計的分詞方法

基於字和詞的統計資訊，如把相鄰字間的資訊、詞頻及相應的共現資訊等應用於分詞，由於這些資訊是通過統計真實語料取得的，因而基於統計的分詞方法具有較好的實用性。

N-gram N元文法模型
認為一個詞的出現僅依賴於它前面有限的一個或幾個詞。如果僅依賴於它前面出現的一個詞，就稱之為bigram。即

P(T)=P(W1W2W3···Wn)=P(W1)P(W2|W1)P(W3|W1W2)···P(Wn|W1W2···Wn-1)

≈P(W1)P(W2|W1)P(W3|W2)···P(Wn|Wn-1)。

如果一個詞的出現僅依賴於它前面出現的兩個詞，那麼就稱之為trigram。設w1,w2,w3,...,wn是長度為n的字串，規定任意詞wi只與它的前兩個相關，得到三元概率模型。

在實踐中用的最多的就是bigram和trigram了，而且效果很不錯。高於四元的用的很少，因為訓練它需要更龐大的語料，而且資料稀疏嚴重，時間複雜度高，精度卻提高的不多。

以此類推，N元模型就是假設當前詞的出現概率只同它前面的N-1個詞有關。

基本的分詞演算法調研

NLP領域基本技術之一，分詞（word segmentation）功能是將一句話用最合理的方式劃分成詞集合，符合語言特點和語義連貫。基於字典詞庫匹配的分詞方法（機械分詞法）應用詞典匹配、

hanlp原始碼解析之中文分詞演算法詳解

詞圖詞圖指的是句子中所有詞可能構成的圖。如果一個詞A的下一個詞可能是B的話，那麼A和B之間具有一條路徑E(A,B)。一個詞可能有多個後續，同時也可能有多個前驅，它們構成的圖我稱作詞圖。需要稀疏2維矩陣模型，以一個詞的起始位置作為行，終止位置作為列，可以得到一個二維矩陣。例如：“他說的確實

【NLP】分詞演算法綜述

之前總是在看前沿文章，真正落實到工業級任務還是需要實打實的硬核基礎，我司選用了HANLP作為分片語件，在使用的過程中才感受到自己基礎的薄弱，決定最近好好把分詞的底層演算法梳理一下。 1. 簡介 NLP的底層任務由易到難大致可以分為詞法分析、句法分析和語義分析。分詞是詞法分析（還包括詞性標註和命名實體識別）中最

基於資訊熵的無字典分詞演算法

這幾天在研究如何用統計方法來發現新詞，擴充自己的詞典。看到了幾篇很有想法的文章，作者闡述了一下思路。文章裡面的資料，我計算了一下，發現文有很多資料不夠嚴謹，最主要的問題，並沒有給出很詳細的理論方面的說明。結合作者的思路，我進行了如下數學模型的構建和演算法的實現。一、概念介紹 1、詞語分

Hanlp原始碼解析之中文分詞演算法

中文分詞演算法總結

什麼是中文分詞眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞，但是不能很容

淺談分詞演算法（4）基於字的分詞方法（CRF）

目錄前言目錄條件隨機場（conditional random field CRF）核心點線性鏈條件隨機場簡化形式 CRF分詞 CRF VS HMM 程式碼實現訓練程式碼實驗結果參考文獻

基於筆畫中文分詞演算法---螞蟻金服

原標題：AAAI 2018 | 螞蟻金服公開最新基於筆畫的中文詞向量演算法轉載自螞蟻金服科技作者：曹紹升陸巍周俊李小龍詞向量演算法是自然語言處理領域的基礎演算法，在序列標註、問答系統和機器翻譯等

中文分詞演算法概述

中文分詞詞是最小的有意義的語言成分，對一段文字進行切分稱作分詞。英文單詞之間以空格作為自然分界符，而中文以字為基本的書寫單位，詞語之間沒有明顯的區分標記。把中文的漢字序列切分成有意義的詞，就是中文分詞。中文分詞是中文資訊處理的基礎與關鍵。中文分詞演算法中文分詞技術屬於

NLP: 中文分詞演算法---交集歧義檢測 (cross ambiguity detect)

這裡，可以採用FMM演算法進行切分，首先切分出最大的正向匹配，然後進行交集歧義檢測，如果檢測到存在交集歧義，那麼對可能存在歧義的一段文字進行FM切分，獲取所有的可能切分結果；然後對剩下的query子句重複進行FMM切分，直到query == null

HMM最大匹配分詞演算法（Python）

正向最大匹配演算法是我國最早提出的解決中文分詞問題的演算法，因其簡單易操作，至今仍作為機器分詞的粗分演算法，在今天看來，這種演算法的準確率遠不夠高，無法達到令人滿意的要求。這只是一次練習。待切分

中文分詞演算法之最大正向匹配演算法（Python版）

最大匹配演算法是自然語言處理中的中文匹配演算法中最基礎的演算法，分為正向和逆向，原理都是一樣的。正向最大匹配演算法，故名思意，從左向右掃描尋找詞的最大匹配。首先我們可以規定一個詞的最大長度，每次掃描的時候尋找當前開始的這個長度的詞來和字典中的詞匹配，如果沒有找到，就縮短

分詞演算法:正向最大匹配演算法

正向最大匹配演算法正向最大匹配演算法(FMM)是一種基於詞典的分詞方法，同樣的基於詞典的方法還有逆向最大匹配法(RMM)，ngram法.FMM故名思意，左向右掃描尋找詞的最大匹配，是一種貪心的思想。

對Python中文分詞模組結巴分詞演算法過程的理解和分析

結巴分詞是國內程式設計師用python開發的一箇中文分詞模組, 原始碼已託管在github, 地址在: https://github.com/fxsjy/jieba 作者的文件寫的不是很全, 只寫了怎麼用, 有一些細節的文件沒有寫. 以下是作者說明檔案中提到的結巴分

一個簡單最大正向匹配（Maximum Matching）MM中文分詞演算法的實現

1.構建詞典記憶體樹的TrieNode節點類： package cn.wzb.segmenter.mm.bean; import java.util.HashMap; /** * 構建記憶體詞典的Trie樹結點 * */ public cla

入門科普：一文看懂NLP和中文分詞演算法（附程式碼舉例）

自己動手寫分詞引擎——逆向最大、正向最大、雙向最大分詞演算法的實現

分詞引擎已經是NLP最成熟的部分了，經歷了：字典分詞，統計分詞等發展之後，除了應付學術中才有的各種變態歧義句之外，目前工業界的分詞引擎對於絕大多數的常見問題已經足以應對，頂多是需要不斷優化新詞字典就可以了。但不管怎麼樣，對於一個NLPer還是要能夠手寫最簡單的分詞演算法的

自然語言處理基礎（1）--基本分詞方法

基本的分詞方法包括最大匹配法、最大概率法（最短加權路徑法）、最少分詞法、基於HMM的分詞法、基於互現資訊的分詞方法、基於字元標註的方法和基於例項的漢語分詞方法等。 1.最大匹配法最大匹配法需要一個詞表，分詞的過程中用文字的候選

計蒜之道初賽第一場搜狗輸入法的分詞演算法

搜狗輸入法最近的使用者輸入中出現了一種新的輸入模式，形如 “0k1234567”，搜狗的工程師發現這一模式後瞭解到，這是一種新被提出的對於十五進位制數字的標記模式，其中 “0k” 是標記進製為15的字首標記，之後的部分 “1234567” 是實際的十五進位制的數字串。在發

MMSeg分詞演算法簡述

MMSeg只是實現了Chih-Hao Tsai的MMSEG演算法，這是一個來源於網路的分詞演算法。我照抄了演算法開始的部分： MMSEG: A Word Identification System for Mandari

基本的分詞演算法調研

相關推薦