自然語言處理之語言模型綜述
一 文法型語言模型
文法型語言模型是人工編制的語言學文法,文法規則來源於語言學家掌握的語言學知識和領域知識,但這種語言模型不能處理大規模真實文字。
二 統計語言模型
統計語言模型常用的思想是用一個詞在句子中的neighborhood表示該詞
主要的統計語言模型有:
1.上下文無關模型
2.N-gram模型:考慮詞形方面的特徵
(1)一元模型
(2)二元模型
(3)N元模型
3.N-pos模型:考慮詞類詞性方面的特徵,前一個詞的詞類決定下一個詞出現的概率。
4.基於決策樹的語言模型
5.最大熵模型
6.動態、自適應、基於快取的語言模型
7.Hyperspace Analogue to Language method (HAL)
HAL (Lund & Burgess, 1996)方法可以用一個co-occurrence matrix, 表示任意兩個詞相關性
8.Latent Semantic Analysis (LSA)
LSA (Deerwester et al., 1990; Landauer, Foltz, & Laham, 1998) 中, co-occurrence matrix是word-document矩陣,表示文件中出現某詞的頻率,統計後將其進行normalization
將document從稀疏的高維Vocabulary空間對映到一個低維的向量空間,我們稱之為隱含語義空間(Latent Semantic Space)。
9.COALS (Rohde et al., 2009)
在HAL上做了小改動, 將HAL所得co-occurrence matrix進行correlation normalization。
三 嚴格匹配模型、概率模型
嚴格匹配模型是給定一個查詢,利用匹配函式,將文件集分為兩個集合: 匹配集和非匹配集. 嚴格匹配模型中最簡單並且常用的一種便是布林模型.在布林模型中要定義一個二值變數的集合,這些變數都對應文件的某個特徵,稱為特徵變數.文件由這些特徵變數組成的集合來表示,如果變數對文件的內容表示有貢獻,則賦值為True,否則為False.查詢語句則是由特徵變數和操作符and, or和not組成的表示式. 匹配函式則遵循布林邏輯的規則.
概率模型是資訊檢索的又一主要模型,這種模型主要針對資訊檢索中相關性判斷的不確定性以及查詢資訊表示的模糊性.基於概率排序原則: 對於給定的使用者查詢Q,對所有的文字D計算概率P(R|D,Q)並從大到小進行排序. 這裡R 表示文字D與查詢Q的相關性.如果以D=(d1,d2,…,dn)表示文字D,N為特徵項個數,特徵項i在文字中出現di=1,否則di=0.
概率模型的缺點是對文字集的依賴性過強,而且處理問題過於簡單.
四 基於分佈理論的獨立檢驗模型
基於分佈理論的獨立檢驗模型有關鍵要素,分別是互資訊、t測試、相異度(t測試差)、相關度(i平方的統計量)
五 基於規則的模型
這種模型假設自然語言的知識可以用規則集來表示,而規則集的獲取既可以人工編寫(唯理主義) ,也可以有語料庫中學習得到(經驗主義) . 1956年喬姆斯基發表了《語言描述的三個模型》,由此興起的短語結構語法、喬姆斯基語法體系和其他的一些語言描述模型,都可以看作是描述語言的規則模型,基於這些規則模型的語言處理技術就是句法分析技術和語義分析技術.
六 語言模型變種
Class-based N-gram Model
該方法基於詞類建立語言模型,以緩解資料稀疏問題,且可以方便融合部分語法資訊。
Topic-based N-gram Model
該方法將訓練集按主題劃分成多個子集,並對每個子集分別建立N-gram語言模型,以解決語言模型的主題自適應問題。
Cache-based N-gram Model
該方法利用cache快取前一時刻的資訊,以用於計算當前時刻概率,以解決語言模型動態自適應問題。
應用:各種輸入法(搜狗、QQ、微軟等)
Skipping N-gram Model&Trigger-based N-gram Model
二者核心思想都是刻畫遠距離約束關係。
指數語言模型
最大熵模型MaxEnt、最大熵馬爾科夫模型MEMM、條件隨機域模型CRF
七 主題模型及其發展
主題模型有兩種:pLSA(ProbabilisticLatent Semantic Analysis)和LDA(Latent Dirichlet Allocation)
主題模型的起源是隱性語義索引(LSI)
隱性語義索引後來又發展為概率隱性語義索引(pLSI)
主題的實現一般包括五部分的內容:輸入、基本假設、表示、引數估計、新樣本推斷
輸入:主要是文件集合
基本假設:是詞袋(bag of words)假設,即一篇文件內的單詞可以交換次序而不影響模型的訓練結果。
主題模型的表示:圖模型和生成過程
Topic Model主要可以分為四大類:
1)無監督的、無層次結構的topic model;2)無監督的、層次結構的topic model;
3)有監督的、無層次結構的topic model;4)有監督的、層次結構的topic model。
對於1)主要有: PLSA, LDA, Correlated Topic Model, PAM,Concept Topic Model等
對於2)主要有: HLDA, HDP,HPAM等
對於3)主要有: S-LDA, Disc-LDA, MM-LDA, Author-Model, Labeled LDA, PLDA 等等
對於4)主要有: hLLDA, HSLDA等