自然語言的分詞方法之N-gram語言模型

阿新 • • 發佈：2021-10-21

也許更好的閱讀體驗

基於理解的分詞方法

其基本思想是在分詞的同時進行句法、語義的分析，以此來處理歧義問題。

目前這種方法還處於實驗狀態

基於統計的分詞方法

基本思路

構建語言模型，對句子進行單詞劃分，劃分結果運用統計方法計算概率，獲取概率最大的分詞方式

N元語言模型（N-gram語言模型）

設\(z\)為字串，\(w\)為劃分的詞串，\(s\)是一種劃分。該分詞方法是以\(p(s)\)最大的分詞結果作為結果。

由於每個詞的概率都十分小，對於較長的字串，得到的每個結果的概率可能十分接近於0，計算機精度不夠，會影響概率的比較，可通過比較概率的負對數來比較大小。

這種方法可發現所有的切分歧義，它的成功率很大程度取決於統計語言模型的精度和決策演算法。

概率怎麼得到，肯定是要有樣本的，如果可以的話，以人類有史以來所有說過的話作為樣本肯定是最好的，但這不可能實現。

對於\(p(s)\)，根據條件概率公式，有\(p(s)=p(w_1)p(w_2|w_1)\cdots p(w_n|w_{n-1},w_{n-2},\cdots w_1)\)

這種計算方法對算力要求太高，對訓練資料要求十分大，不太可能實現，因此考慮建立模型。

馬爾可夫假設

俄國數學家馬爾可夫提出假設：任意一個詞\(w_i\)出現的概率只同它前面的一個詞\(w_{i-1}\)有關，這種假設稱為馬爾可夫假設。
即\(p(s)=p(w_1)p(w_2|w_1)\cdots p(w_n|w_{n-1})\)

這樣求的方法就簡單多了。

而當我們假設\(w_i\)出現的概率和它前面的\(n\)個詞有關，就被稱為\(n\)元語言模型

程式碼思路

用\(DFS\)不難實現，首先找到一個可行的劃分，再計算概率，儲存最大概率的結果，\(DFS\)途中可適當剪枝。

//程式碼框架
void _find (int cur)//找劃分，cur表示當前為第幾個詞
{
	if (cur==n+1)	calc();//對當前結果計算概率並儲存
	for (int i=cur;i<=n;++i)
		if (check(cur,i)){//如果從cur到i形成一個詞
			add(cur,i);//將該詞新增到當前劃分
			_find(i+1);
			del();//刪掉這個詞
		}
}

與詞性標註結合

這種方法的基本思想是在考慮分詞結果的概率的同時，還要考慮詞性，自然語言的詞性搭配是有規律的，將分詞結果的詞性搭配的概率也進行比較，從而反過來調整分詞，可極大的提高結果的準確性。

自然語言的分詞方法之N-gram語言模型

也許更好的閱讀體驗基於理解的分詞方法其基本思想是在分詞的同時進行句法、語義的分析，以此來處理歧義問題。

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

文字分詞隱馬爾可夫模型-JavaScript

/** 文字分詞隱馬爾可夫模型共4種狀態S B M E AMap 為狀態轉移概率矩陣 4*4,表示從{S B M E}到{S B M E}的概率

機器學習-文字分類（1）之獨熱編碼、詞袋模型、N-gram、TF-IDF

1、one-hot 一般是針對於標籤而言，比如現在有貓：0，狗：1，人：2，船：3，車：4這五類，那麼就有：

自然語言處理 - 二元語法與中文分詞

技術標籤：自然語言處理人工智慧機器學習二元語法與中文分詞之前的一篇文章裡(自然語言處理 - 分詞初窺)中我們介紹並實現了基於詞典的最大匹配分詞方法。這種方法簡單直觀，且詞典擴充很方便。但詞典分詞難以消

NLP獲取詞向量的方法（Glove、n-gram、word2vec、fastText、ELMo 對比分析）

　　自然語言處理的第一步就是獲取詞向量，獲取詞向量的方法總體可以分為兩種兩種，一個是基於統計方法的，一種是基於語言模型的。

python中文分詞庫jieba使用方法詳解

安裝python中文分詞庫jieba 法1：Anaconda Prompt下輸入conda install jieba 法2：Terminal下輸入pip3 install jieba

資料分析之兩種使用者分群方法（RFM和聚類）

本文由於沒有現成的資料，就自己生成了一些商品訂單資料，基於該資料進行了RFM和聚類的構建

維特比演算法之中文分詞

維特比原理尋找上圖最短路徑中文分詞此專案需要的資料：綜合類中文詞庫.xlsx：包含了中文詞，當做詞典來用

文字挖掘預處理之分詞 / 向量化 / TF-IDF / Hash trick 附程式碼 Demo

分詞(tokenizing) 對於一個句子，首先需要將其分為多個單詞或多個片語。例如， “I come from New York" => "I/come from/New York"

R語言——中文分詞包jiebaR

R的極客理想系列文章，涵蓋了R的思想，使用，工具，創新等的一系列要點，以我個人的學習和體驗去詮釋R的強大。

pandas之中文分詞，詞雲，情感分析，語義分析4

中文情感分析 - SnowNLP 情感分析（Sentiment analysis，SA），又稱傾向性分析、意見抽取（Opinion extraction）、意見挖掘（Opinion mining）、情感挖掘（Sentiment mining）、主觀分析（Subjectivity analysis）

pandas之中文分詞，詞雲，情感分析，語義分析5

非格式化資料分析：語義結構分析-Gensim Gensim 是一個通過衡量片語（或更高階結構，如整句或文件）模式來挖掘文件語義結構的工具

solr學習之（二）_在solr4.2中部署IKAnalyzer中文分詞外掛

前幾天弄過solr的中文分詞外掛，當時看了一個部落格，一步步來，感覺挺簡單的，就沒在意，今天覺得應該一步一步把這個細節知識點都過一遍。

vs2019 Com元件初探之簡單的COM編寫及實現跨語言呼叫的方法

前提條件　　1、掌握C++基礎語法　　2、平臺安裝 vs2019 　　3、本地平臺為 windows 10 1909 X64

scala之旅-核心語言特性【多型方法】(二十九)

在Scala中，方法可以和值一樣可以被型別引數化。這樣寫的語法跟泛型很像。型別引數用中括號包著，值引數則是用小括號包著。

【Elasticsearch】之中文分詞器ik

技術標籤：Elasticsearch 應用筆記elasticsearcheselk 安裝分詞外掛ik mkdir plugins/ik cp elasticsearch-analysis-ik-6.5.4.zip plugins/ik

ES基礎（二十二）多語言及中文分詞與檢索

課程demo 來到楊過曾經生活過的地方，小龍女動情地說：“我也想過過過兒過過的生活。”

數倉工具—Hive實戰之UDF分詞(1)

技術標籤：資料倉庫Hivehive大資料資料倉庫面試 UDF 分詞分詞這個是一個比較常見的場景，例如公司的產品有每天都會產生大量的彈幕或者評論，這個時候我們可能會想去分析一下大家最關心的熱點話題是什麼，或者是

C語言編寫：用遞迴方法求n!。

技術標籤：C語言c語言c++ #include<stdio.h> int func(unsigned int x) { int f; if (x == 0 || x == 1 ) return 1; f = func(x-1)*x;//函式自己呼叫自己加粗樣式 return f;