1. 程式人生 > 其它 >5分鐘NLP:從 Bag of Words 到 Transformer 的時間年表總結

5分鐘NLP:從 Bag of Words 到 Transformer 的時間年表總結

本文不是 NLP 研究的完整列表,因為太多了無法總結的這麼完整!但是本文對影響NLP研究的一些重要的模型進行總結,並儘量讓它簡約而不是簡單,如果你剛剛進入NLP領域,本文可以作為深入研究該領域的起點。

Bag of Words (BOW) [1954]:計算文件中每個單詞的出現次數並將其用作特徵。

TF-IDF [1972]:修改 BOW 分數,使稀有詞得分高,普通詞得分低。

Word2Vec [2013]:每個單詞都對映到一個稱為單詞嵌入的高維向量,該向量捕獲其語義。詞嵌入是通過神經網路在大型語料庫上尋找詞相關性來學習的。

RNN [1986]:RNNs 利用句子中的單詞上下文計算文件嵌入。後來演變為 LSTM [1997] 以捕獲長期依賴關係,並演變為 Bidirectional RNN [1997] 以捕獲從左到右和從右到左的依賴關係。最後Encoder-Decoder RNNs [2014] 出現了,其中一個 RNN 建立文件嵌入(即編碼器),另一個 RNN 將其解碼為文字(即解碼器)。

Transformer [2017]:一種編碼器-解碼器模型,它利用注意力機制來計算更好的嵌入並更好地將輸出與輸入對齊。

BERT [2018]:雙向 Transformer 使用掩蔽語言建模和下一句預測目標的組合進行預訓練。它使用全球關注。

GPT [2018]:第一個基於 Transformer 架構的自迴歸模型。後來演變成 GPT-2 [2019],這是在 WebText 上預訓練的更大和優化的 GPT 版本,以及 GPT-3 [2020],在 Common Crawl 上預訓練的更大和優化的 GPT-2 版本。

CTRL [2019]:類似於 GPT,但帶有用於條件文字生成的控制程式碼。

Transformer-XL [2019]:它是一個自迴歸 Transformer,可以重用先前計算的隱藏狀態來處理更長的上下文。

ALBERT [2019]:BERT 的輕量級版本,其中(1)下一句預測被句子順序預測取代,(2)引數減少技術用於降低記憶體消耗和更快的訓練。

RoBERTa [2019]:BERT 的更好版本,其中 (1) Masked Language Modeling 目標是動態的,(2) Next Sentence Prediction 目標被刪除,(3) 使用 BPE 標記器 (4) 使用更好的超引數.

XLM [2019]:使用因果語言建模、掩碼遮蔽語言建模和翻譯語言建模等目標在多種語言的語料庫上進行預訓練的 Transformer。

XLNet [2019]:Transformer-XL 具有廣義的自迴歸預訓練方法,可以學習雙向依賴。

完整文章:

https://www.overfit.cn/post/28e65563957f49f2ad9d7ddbbc331f4c