概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

1. 緣由–資料稀疏問題

假設k泛指某一事件，N(k)表示事件k觀察到的頻數，極大似然法使用相對頻數作為對事件k的概率估計為p(k)=N(k)N,在語言模型中，訓練語料中大量的事件N(k)=0，這顯然沒有反映真實情況,這種零值的概率估計會導致語言模型演算法的失敗。

2. 解決方法–平滑

給“零概率和低概率的N元語法”指派非零概率。平滑分為打折和回退，打折是指將某個非零n元語法的計數降下來，把這部分概率量指派給那些訓練語料庫中出現次數為零或很低的事件。回退指用根據n-1元語法計數來建立n元語法模型。
注：資料平滑技術是構造高魯棒性語言模型的重要手段，且資料平滑的效果與訓練語料庫的規模有關。訓練語料庫規模越小，資料平滑的效果越顯著；訓練語料庫規模越大，資料平滑的效果越不顯著，甚至可以忽略不計。
根據對稱性原理，事件除了出現次數之外不應具有細節特徵，即所有具有相同計數r=N(k)的事件k（事件出現的次數稱為事件的計數）應當具有相同的概率估計值，這些計數相同的事件稱為計數等價，將它們組成的一個等價類記為計數等價類G

r。對於計數為r的計數等價類，定義nr為等價類中成員的個數，pr為等價類中事件的概率，R是最大可能出現的計數次數。

3. 演算法介紹

a) Add-one(Laplace) Smoothing(加一平滑法，又稱拉普拉斯定律)，核心思想是保證每個n-gram在訓練語料中至少出現1次，即Just add one to all the counts：
Add 1 estimate:

PAdd1(wi|wi−1)=c(wi−1,wi)+1c(wi−1)+V
對比之前的MLE方法:
PMLE(wi|wi−1)=c(wi−1,wi)c(wi−1)

b) Good-Turing Smoothing(圖靈估計),主要思想是對模型中用觀察計數較高的n元語法數進行打折估計，將折扣後獲得的剩餘量攤給那些具有零計數或者較低計數的n元語法,即利用頻率的類別資訊對頻率進行平滑。對一個任何出現r

次的n元語法,都假設其出現了r∗,其表示式為：

r∗=(r+1)nr+1nrpr=r∗N
在Good-Turing估計中，對於非零的頻率事件概率總和為：
∑r>0nrpr=1−n1N
所以共有n1N的概率剩餘量將會分配給r=0的未見事件。
缺點：(1) 無法保證概率估計的“有序性”，即出現次數多的事件的概率大於出現次數少的事件的概率。(2) pr與rN不能很好地近似，好的估計應當保證pr≤rN。 (3) 不能實現高階模型和低階模型的結合
優點：是其它平滑技術的基礎
適用範圍：對0<r<6的小計數事件進行估計

c) Jelinek-Mercer (Linear Interpolation) Smoothing, 即線性插值平滑，其主要思想是利用低元的n-gram對高元的n-gram進行線性插值來彌補高元資料稀疏的問題，表示式為:

pinterp(wi|wi−1i−n+1)=λi−1i−n+1pML(wi|wi−1i−n+1)+(1−λi−1i−n+1)pinterp(wi|wi−1i−n+2)
該模型的缺點是引數估計比較困難。
另外， Witten-Bell打折法可以認為是Jelinek-Mercer平滑的一個例項。

c) Katz Smoothing,通過加入高階模型和低階模型的結合，擴充套件了Good-Turing。Katz認為，並非所有的計數都使用打折估計得到的c∗是可靠的，而是對較大的計數是可靠的(對於某個閾值k，c>k)。在這個思想的指導下，估計公式為：

Pbo(wi∣wi−n+

概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

1. 緣由–資料稀疏問題

2. 解決方法–平滑

3. 演算法介紹

概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

概率語言模型 Probabilistic Language Modeling (三) --- 訓練工具彙總

斯坦福大學自然語言處理第四課語言模型（Language Modeling）筆記

stanford nlp第四課“語言模型（Language Modeling）”

深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之二（作者簡介）

神經概率語言模型

概率語言模型分詞方法

MIT自然語言處理第三講：概率語言模型（第四、五、六部分）

概率語言模型及其變形系列(2)-LDA及Gibbs Sampling

ASP.NET MVC Model之二模型綁定

ios初識UITableView及簡單用法二(模型數據)

C語言復習：內存模型２

C語言的內存四區模型和函數調用模型

自然語言處理--LDA主題聚類模型

語音識別系統語言模型的訓練和聲學模型的改進

當asp.net core偶遇docker一（模型驗證和Rabbitmq 二）

WebGL模型拾取——射線法二

ROS URDF(二): 控制URDF機械臂模型運動：解決URDF模型不隨joint_states運動問題

Java 記憶體模型的基礎（二）——重排序

概率語言模型 Probabilistic Language Modeling (二) --- 模型估計演算法介紹

1. 緣由–資料稀疏問題

2. 解決方法–平滑

3. 演算法介紹

相關推薦