概率語言模型分詞方法

阿新 • • 發佈：2019-01-13

4.6 概率語言模型的分詞方法

從統計思想的角度來看，分詞問題的輸入是一個字串C=C1,C2,……,Cn，輸出是一個詞串S=W1,W2,……,Wm，其中m<=n。對於一個特定的字串C，會有多個切分方案S對應，分詞的任務就是在這些S中找出概率最大的一個切分方案，也就是對輸入字串切分出最有可能的詞序列。

例如對於輸入字串C"有意見分歧"，有S1和S2兩種切分可能。

S1：有/ 意見/ 分歧/

S2：有意/ 見/ 分歧/

計算條件概率P(S1|C)和P(S2|C)，然後採用概率大的值對應的切分方案。根據貝葉斯公式，有。

其中P(C)是字串在語料庫中出現的概率，只是一個用來歸一化的固定值。從詞串恢復到漢字串的概率只有唯一的一種方式，所以P(C|S)=1。因此，比較P(S1|C)和P(S2|C)的大小變成比較P(S1)和P(S2)的大小。

概率語言模型分詞的任務是：在全切分所得的所有結果中求某個切分方案S，使得P(S)最大。那麼，如何來表示P(S)呢？為了容易實現，假設每個詞之間的概率是上下文無關的，則：

其中，對於不同的S，m的值是不一樣的，一般來說m越大，P(S)會越小。也就是說，分出的詞越多，概率越小。這符合實際的觀察，如最大長度匹配切分往往會使得m較小。計算任意一個詞出現的概率如下：

因此

從另外一個角度來看，計算最大概率等於求切分詞圖的最短路徑。但是這裡不採用Dijkstra演算法，而採用動態規劃的方法求解最短路徑。

常用的詞語概率表如表4-3所示。

表4-3 詞語概率表

詞語	概率
…	…
有	0.0180
有意	0.0005
意見	0.0010
見	0.0002
分歧	0.0001
…	…

P(S1) = P(有) P(意見) P(分歧) = 1.8 × 10-9

P(S2) = P(有意) P(見) P(分歧) = 1×10-11

可得P(S1) > P(S2)，所以選擇S1對應的切分。

如何儘快找到概率最大的詞串？因為假設每個詞之間的概率是上下文無關的，因此滿足用動態規劃求解所要求的最優子結構性質和無後效性。在動態規劃求解的過程中並沒有先生成所有可能的切分路徑Si，而是求出值最大的P(Si)後，利用回溯的方法直接輸出Si。

到節點Nodei為止的最大概率稱為節點Nodei的概率：

如果Wj的結束節點是Nodei，就稱Wj為Nodei的前驅詞。這裡的prev（Nodei）就是節點i的前驅詞集合。

比如上面的例子中，候選詞"有"就是節點1的前驅詞，"意見"和"見"都是節點3的前驅詞。

StartNode（wj）是wj 的開始節點，也是節點i的前驅節點。

因此切分的最大概率max(P(S))就是P(Nodem)=P(節點m的最佳前驅節點) P(節點m的最佳前驅詞)。

按節點編號，從前往後計算如下：

P(Node0)=1

P(Node1)= P(有)

P(Node3)= P(Node1) P(意見)

概率語言模型分詞方法

概率語言模型分詞方法

hanlp中文自然語言處理分詞方法介紹

自然語言處理-中文分詞方法總結

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

自然語言處理基礎（1）--基本分詞方法

自然語言處理的中文分詞方法

自然語言處理中的語言模型預訓練方法

常見的中文分詞方法

elasticsearch 外掛開發-自定義分詞方法

神經概率語言模型

NLP中語言模型預訓練方法

自然語言處理(四)神經網路語言模型及詞向量

淺談分詞演算法（4）基於字的分詞方法（CRF）

2 語言模型和詞向量 tensorflow詞向量

概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

概率語言模型 Probabilistic Language Modeling (三) --- 訓練工具彙總

常用中文分詞方法

文字分詞方法

MIT自然語言處理第三講：概率語言模型（第四、五、六部分）

概率語言模型及其變形系列(2)-LDA及Gibbs Sampling

概率語言模型分詞方法

相關推薦