對NLP中transformer裡面decoder的理解

阿新 • • 發佈：2022-03-15

剛接觸NLP這塊，有兩個關於transformer的問題：

1）為什麼要有decoder？如果encoder後面直接接全連線不可以嗎？

2）為什麼decoder要有mask？為什麼要按時間步一個字一個字翻譯？這樣的話，是不是英語從句翻譯成漢語就不可行，比如 He is a person who wears a red t-shirt. -> 他是一個穿紅色t恤的人。

想了下應該是下面的原因：

1）decoder相當於有兩個輸入，一個是encoder編碼的全域性語義資訊（使得decoder能夠看到完整的上下文資訊），一個是模型的前期翻譯結果（這個資訊對最終的翻譯結果也很重要），根據這兩個輸入決定下一個輸出。

2）根據這個邏輯，每一個輸出依賴前面的結果，那麼必須mask掉後面的內容，因為這時後面的內容還沒有生成。decoder的輸入是模型的前期翻譯結果，也就是拿模型的前期翻譯結果做一個Q去和encoder編碼的全域性語義資訊生成的K、V做attention，相當於去找現有結果在全域性語義資訊裡面的相關性，根據這個相關性去決定下一個翻譯結果（比如翻譯到“他是一個”的時候，去encoder給的資訊裡面算attention，發現接下來需要翻譯的詞跟“wears a red t-shirt”相關性很強，那麼就給出翻譯“穿紅色T恤”，接下來才是翻譯“person”，也就是“的人”）。正是因為有從句這種需要跳躍翻譯的問題，才需要attention算全域性相關性，要不然直接查表就完事了。

3）mask也保證了模型在訓練的時候可以平行計算，因為訓練的時候我們知道label，也就是完整的翻譯結果，那麼為了平行計算需要把label後面的資訊掩蓋，因為每次計算需要用到前面的label資訊而不能輸入label後面的資訊。但在測試的時候，是序列輸出的，每個位置的翻譯結果只依賴前面的翻譯結果，mask不重要。
————————————————
版權宣告：本文為CSDN博主「xiav」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。
原文連結：https://blog.csdn.net/qq_26628975/article/details/115331368

對NLP中transformer裡面decoder的理解

對NLP中transformer裡面decoder的理解

談談對Java中的volatile的理解

對 OpenGL 中 depth 概念的理解

說說對 Node 中的 Buffer 的理解？應用場景？

node.js中對Event Loop事件迴圈的理解與應用例項分析

對Python中 \r, \n, \r\n的徹底理解

對python pandas中 inplace 引數的理解

對vue中插槽（slot）的理解

js對陣列中相同物件元素進行去重，裡面物件相同id，其他不同屬性進行文字疊加

對javascript中淺拷貝和深拷貝以及賦值的理解

說說對 Node 中的 fs 模組的理解? 有哪些常用方法?

對Vue中SPA的理解

gem5 使用記錄，對例子中helloobject的理解

視覺化和理解NLP中的神經模型

談談我對指標和結構體的理解

C++中this指標的理解與作用詳解

MongoDB如何對陣列中的元素進行查詢詳解

對tensorflow中的strides引數使用詳解

對Pytorch中Tensor的各種池化操作解析

淺談對pytroch中torch.autograd.backward的思考

對NLP中transformer裡面decoder的理解

相關推薦