Reasoning about Entailment with Neural Attention-學習筆記
阿新 • • 發佈:2020-10-13
Reasoning about Entailment with Neural Attention
- LSTM可以學習豐富的語句表示,這些語句適合於確定文字含義。LSTM神經網路很適用於文字蘊含類的任務。
- 針對識別文字蘊含(RTE)任務提出了一個帶有注意力的神經網路。文中的模型能夠處理以前提為條件的假設來推理詞與詞,短語與短語之間的蘊含關係。
- 文中的整個模型的框架:使用兩個LSTMs(A)識別文字蘊涵,一個在premise上,一個在hypothesis上,以及注意僅基於最後輸出向量(h9,B)或逐字注意基於假設所有輸出向量(h7,h8和h9,C)。
- word2vec vectors其實就是簡單化的神經網路,在[1]中使用了word2vec向量作為字元向量的初始,但並沒有在訓練時進行優化。
- 使用線性層把詞向量對映到LSTM的隱藏層大小的維度,形成輸入量x_i。
- 使用softmax層對輸出向量的非線性對映的輸出進行分類(導致,不相干,矛盾),使用交叉熵進行訓練。
- 擁有注意力的LSTM RTE模型不需要掌握細胞狀態的premise整個語義含義。
- 為了確定一個句子是否蘊含另一個句子,最好的方法就是檢查每個詞和短語對的蘊含或矛盾的關係。
- Word-by-word的attention機制,與基本的attention模型不同的是,不是用注意力來生成單詞,而是通過在前提和假設中對單詞和短語進行軟對齊,從細粒度的推理中獲得一個句子對編碼。該模型可以生成一個權重矩陣,這時候計算權重並不是使用前LSTM的末態,而是使用前者的全部隱藏輸出。從而建立起兩個文字序列之間的關係。
- 加了two-way attention的效果並沒有更好,反而更差。[1]分析認為是因為用了相同的引數來做two-way可能會給訓練帶來更多的影響,所有效果不好。