1. 程式人生 > >Word Embeddings

Word Embeddings

寵物 離散 自然語言 mbed 統計量 變體 embed 兩種 統計

 1 自然語言處理系統通常將詞匯作為離散的單一符號,例如 "cat" 一詞或可表示為 Id537 ,而 "dog" 一詞或可表示為 Id143。這些符號編碼毫無規律,無法提供不同詞匯之間可能存在的關聯信息。換句話說,在處理關於 "dogs" 一詞的信息時,模型將無法利用已知的關於 "cats" 的信息(例如,它們都是動物,有四條腿,可作為寵物等等)。可見,將詞匯表達為上述的獨立離散符號將進一步導致數據稀疏,使我們在訓練統計模型時不得不尋求更多的數據。而詞匯的向量表示將克服上述的難題。
 2 
 3 向量空間模型 (VSMs)將詞匯表達(嵌套)於一個連續的向量空間中,語義近似的詞匯被映射為相鄰的數據點。
4 5 不過幾乎所有利用這一模型的方法都依賴於 分布式假設,其核心思想為出現於上下文情景中的詞匯都有相類似的語義。 6 7 采用這一假設的研究方法大致分為以下兩類:基於技術的方法 (e.g. 潛在語義分析), 和 預測方法 (e.g. 神經概率化語言模型). 8 9 基於技術的方法計算某詞匯與其鄰近詞匯在一個大型語料庫中共同出現的頻率及其他統計量,然後將這些統計量映射到一個小型且稠密的向量中。預測方法則試圖直接從某詞匯的鄰近詞匯對其進行預測,在此過程中利用已經學習到的小型且稠密的嵌套向量。 10 11 Word2vec是一種可以進行高效率詞嵌套學習的預測模型。其兩種變體分別為:連續詞袋模型(CBOW)及Skip-Gram模型。從算法角度看,這兩種方法非常相似,其區別為CBOW根據源詞上下文詞匯(
the cat sits on the)來預測目標詞匯(例如,‘mat’),而Skip-Gram模型做法相反,它通過目標詞匯來預測源詞匯。Skip-Gram模型采取CBOW的逆過程的動機在於:CBOW算法對於很多分布式信息進行了平滑處理(例如將一整段上下文信息視為一個單一觀察量)。很多情況下,對於小型的數據集,這一處理是有幫助的。相形之下,Skip-Gram模型將每個“上下文-目標詞匯”的組合視為一個新觀察量,這種做法在大型數據集中會更為有效。

Word Embeddings