NLP學習記錄：語言模型

阿新 • • 發佈：2019-01-21

學習了cs224n之後，深感這門課更偏深度學習，因此僅學習這門課後NLP基礎不足，NLP領域的知識學習並不系統，基礎概念不清，感覺對於NLP領域的問題直覺不足，因此開始學習Michael Collins的NLP課程，結合此前學習的體悟寫一些綜合性的感想。

語言模型

對於一個含有有限個單詞的單詞庫V：

從中選取若干個單詞，以某種順序排列，最後加上STOP符結束，就可以生成一個語句，將所有這些語句的集合稱為V+：
這裡寫圖片描述
由於在NLP任務中，V本身已經很大，所以可以認為V+是無限大的。
語言模型就是要計算V+的概率分佈p的模型：

從直覺上來說，符合語言規範和人類思維的語句的概率應該較高，而人類看著很荒唐的語句的概率應該很低。
那麼這個概率分佈如何計算呢？
先從最簡單的方式開始：
這裡寫圖片描述

其中N是訓練集中語句的個數，c指x1…xn詞序列的語句出現的次數。
顯然，這種計算方式對於訓練集的要求太高了，需要預測的語句均在訓練集中出現，且要有一定的頻率來計算合理的概率，這顯然是很沒有效率、效能也很差的方法。

馬爾科夫過程

對於一個長度為n的序列：X1,X2,X3…Xn，要計算：
這裡寫圖片描述
考慮概率的鏈式分解：
P(A,B)=P(A)P(B|A)
P(A,B,C)=P(A)P(B|A)P(C|A,B)
…….
有：

假設：

則：

這個假設的意思就是某個單詞出現的概率只與前一個單詞有關，似乎是一個過強的假設，實際應用中用處不大，所以我們可以使用弱一些的假設：某單詞出現的概率與之前兩個單詞有關。那麼會得到：
這裡寫圖片描述

其中x0=x-1=*。
這樣，我們就得到了常用的trigram模型：
對於包含有限個單詞的集合V(包含STOP和*)：
這裡寫圖片描述

其中xi屬於V，xn=STOP，x0=x-1=*。
例：
這裡寫圖片描述

那麼如何計算p呢？
一種最簡單的方式：
這裡寫圖片描述

由於在實踐中可能會遇到count=0，為了避免這種情況，可以使用linear interpolation 方法：
這裡寫圖片描述

RNN

（個人腦洞部分）
現在，讓我們看一下RNN的公式：
這裡寫圖片描述
其中，e是詞向量，x是one-hot向量。
實際上，RNN可以看作是利用一個單詞序列來預測下一個單詞的模型，在預測過程中序列中的每一個單詞都有不同的權重——前一個單詞乘了一個I，再前一個乘了IH，再前一個乘了IHH…….與上面的linear interpolation思想如出一轍。
那麼，RNN是如何計算概率p的呢？
RNN輸出中的概率源於詞向量。
回想詞向量的計算過程，以CBOW為例，我們使用視窗中的上下文單詞預測中心詞，訓練過程中利用概率最大化來更新詞向量，這個過程中賦予了詞向量預測其他單詞出現的概率的能力，而RNN本質上只是將這些概率資訊組合起來而已。
要注意，這個概率組合的基本單位不是詞向量，而是詞向量的每一個維度。
不同的RNN架構給予了模型不同的提取和組合概率的能力。
這裡寫圖片描述

普通RNN只能在詞向量上乘IHH……，顯然，越遠的單詞乘的矩陣越多，必然越難準確地發揮作用，所以，GRU和LSTM通過設定一些gate使得模型獲得更大的靈活度，稍遠的單詞可以比更近的單詞發揮更為主動的作用，這就增加了有效提取詞向量中資訊的能力。
在CNN上，“組合”的意味更濃，設想一個句法樹，第一層卷積層計算了基於filter的所有可能的組合，然後在第一層pooling層上篩選出最有價值的組合方式，此時就相當於是經過了句法樹中最底層的一層組合，之後還可以有更深更多的組合，直到完成一顆句法樹，獲得一個語句向量。
目前，出現了非常多基於RNN、CNN和注意力機制的模型，其本質都是對詞向量資訊的提取組合。

困惑度

困惑度是用來衡量語言模型效能的一種方式。
對於測試集中的m個語句：
s1,s2…..sm
這裡寫圖片描述
其中M是測試集中的單詞個數。
對於|V|=50000的V,有實踐經驗估計的困惑度

NLP學習記錄：語言模型

語言模型

馬爾科夫過程

RNN

困惑度

NLP學習記錄：語言模型

小資料、高準確率的文字分類：利用遷移學習創造通用語言模型

R語言學習記錄：因子分析的R實現

深度學習：語言模型的評估標準

spaCy 學習第二篇：語言模型

學習記錄：安裝配置自動化工具ansible

Linux 學習記錄：七、fdisk 分區工具

學習記錄：gcc/g++ 編譯與鏈接

全文搜索引擎ElasticSearch學習記錄：mac下安裝

CSS學習筆記：盒子模型

JSP學習記錄：request物件

小程式學習記錄：讀取discuz生成的json資料

HTTP學習記錄：四、頭資訊（請求和響應）

學習筆記：生成模型(待完善)

Qt5學習記錄：QString與int值互相轉換

小程式學習記錄：顯示陣列內容2

Coursera 學習記錄：Tomorrow never knows？（實現日期加一的操作）

Coursera 學習記錄：四大湖排序（使用bool值的小技巧）

Coursera 學習記錄：發票統計（使用switch進行資料歸類）

Coursera 學習記錄：流感傳染（關於二維陣列的標記和統計）

NLP學習記錄：語言模型

語言模型

馬爾科夫過程

RNN

困惑度

相關推薦