Transformer架構記錄（四）

阿新 • • 發佈：2021-10-03

Transformer架構記錄（一、二、三）針對Transformer的Encoder-block部分做了簡要介紹，本文作為該系列的最終章，將以Decoder-block介紹結束本系列。

一個完整的Decoder-block的結構如下所示：

Decoder-block與Encoder-block的差別在以下幾處：

第一個 Multi-Head Attention 層採用了 Masked 操作；
第二個 Multi-Head Attention 層的 K, V 矩陣使用 Encoder 的輸出，進行計算，而 Q 使用上一個 Decoder block 的輸出計算。

Masked Multi-Head Attention

在計算得到 Q、K、V 之後，計算 Q 和 K 轉置的乘積 QK^T；
在對QK^T 進行 Softmax 之前需要使用 Mask 矩陣遮擋住每一個單詞之後的資訊，遮擋操作如下圖所示：

在得到的 Mask QK^T 上進行 Softmax，使得每一行的和都為 1.
將經過 Softmax 操作的 Mask QK^T 與矩陣 V 相乘得到輸出 Z；和 Encoder 類似，通過 Multi-Head Attention 拼接多個輸出 Z_i 然後計算得到第一個 Multi-Head Attention 的輸出 Z，Z 與輸入的 X 維度一樣

第二個 Multi-Head Attention

Decoder block 第二個 Multi-Head Attention 與 Encoder block 的 Multi-Head Attention 主要區別在於，其中 Self-Attention 的 K, V 矩陣不是使用上一個 Decoder block 的輸出計算的，而是使用 Encoder 的輸出矩陣 C 計算的。

即，對於 Self-Attention 設定的（WQ、WK、WV），
Q = ZWQ (如果是第一個 Decoder block 則使用輸入矩陣 X 替代 Z 進行計算，其餘Decoder block則使用前一個Decoder block 的輸出 Z 進行計算)
K = C

WK
V = C*WV

通過堆疊多個 Decoder block ，得到解碼器 Decoder.

預測輸出

在 Decoder 的最後輸出 Z 中，其包含的資訊分佈如下圖所示：

Softmax 作用於 Z 每一行，用於預測下一個單詞，如下圖所示：

參考資源
連結：https://www.jianshu.com/p/9b87b945151e
《Attention is all you need》

作者： python之家

出處： http://www.cnblogs.com/pythonfl/

本文版權歸作者和部落格園共有，轉載時請標明本文出處；如對本文有疑問，歡迎郵件[email protected]聯絡；如發現文中內容侵犯到您的權利，請聯絡作者予以處理。

Transformer架構記錄（四）

Transformer架構記錄（一、二、三）針對Transformer的Encoder-block部分做了簡要介紹，本文作為該系列的最終章，將以Decoder-block介紹結束本系列。

Transformer架構記錄（一）

Transformer架構是2017年由google研究團隊提出的一項全新的自然語言處理模型架構，首次應用於機器翻譯任務中，該模型出自論文《Attention is all you need》。

Transformer架構記錄（二）

在 Transformer架構記錄（一）中，得到了一句話的數字表示 X,下面將 X 輸入到Encoder的第一個Encoder-block中對其做進一步處理。

Transformer架構記錄（三）

Transformer架構記錄（二）中提到，整個Encoder-block的結構如下圖所示：本文聚焦上圖中的Multi-Head Attention模組，即下圖所示：

odoo12 修行基礎篇之新增工作流和操作記錄（四）

這一篇我們先說下如何新增操作記錄。其實就是一個固定的流程： 1、在my_customer_complain.py中繼承三個類

python學習記錄（四）-意想不到

計數 from collections import Counter # 計數 res = Counter([\'a\',\'b\',\'a\',\'c\',\'a\',\'b\']) print(res,type(res))

skynet踩坑記錄（四）cluster叢集通訊中，傳遞的訊息過大造成的問題。

昨天更新後，一直觸發這個報錯。第一眼看我都嚇懵了，這什麼鬼報錯，call fail。框架級別的報錯。這怎麼解決。

Dart學習記錄（四）—— 庫

　　1、引入庫 import 　　2、系統內建庫　　　　dart.math 　　　　dart.io 請求介面 awaut, async

LeetCode刷題記錄（四）

劍指 Offer 42. 連續子陣列的最大和（dp）求連續子陣列的最大和，要最大，即加上後的值變大，所以我們用一個數組dp[]來記錄該連續和，如果加上num[i]變大代表需要這個數，變小代表不需要這個數就不加，流程如下：

JAVA學習過程記錄（四）

一：面向物件 Q：什麼是面向物件的開發方式？ A：採用面向物件的開發方式更符合人類的思維方式，人類就是以“物件”來認識世界的。所以面向物件更容易讓人接受。面向物件就是將現實世界分割成不同的單元，然後每一個

資料庫學習記錄（四）

1.union(可以將查詢結果集相加）案例：找出崗位是SALEMAN和MANAGE的員工第一種：select ename,job from emp where job =\'MANAGE\' or job \'SALEMAN\' ;

Kubernetes學習記錄（四）：深入理解Pod

1. 什麼是Pod 1.1 Pod的基本概念 Pod就是一組共享了某些資源的容器 Pod的設計是為了親密性應用可以共享儲存和網路而設計

專案成長記（四）—— 小型架構優化

自從上次搭建完小型架構以後，還是比較穩定的，但有一個讓人擔心的煩惱，那就是機器的負載都很高，基本上都是百分之七八十的佔用，不管是CPU還是記憶體，所以決定進行一次大規模的優化，決定優化完後在把成

黃金點遊戲bs架構（四）——基本實現

黃金點遊戲bs架構——基本實現 1.設計框架Review 首先，由於本次實現與前一次進行較大重整，我們先來看一下最初的設計思路和框架，因為現在的設計迴歸了最初的設計方案，和最初設計方案契合度較高。

SpringCloud（四）微服務架構-事務一致性

　　分散式事務指事務的操作位於不同的節點上，需要保證事務的 AICD 特性。目前比較常用的分散式事務解決方案包括強一致性的兩階段提交協議、三階段提交協議以及最終一致性的可靠事件模式、補償模式、阿里的TCC模式。

DDD 領域驅動設計學習（四）- 架構（CQRS/EDA/管道和過濾器）

原文： https://www.jianshu.com/p/edd8db46ea99?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Spring原始碼簡易手寫實現（學習過程記錄）（四）

4.1Aware回撥模擬實現在createBean的時候，我們想在加了Component註解的類裡面加一個欄位beanName，該欄位儲存bean物件的name屬性

手把手帶你設計介面自動化測試用例（四）：建立配置資訊表，執行結果記錄表

Tomcat原始碼分析（四）----- Pipeline和Valve Tomcat原始碼分析（二）----- Tomcat整體架構及元件

注：原文連結：https://www.cnblogs.com/java-chen-hao/p/11341478.html 正文在 Tomcat原始碼分析（二）----- Tomcat整體架構及元件中我們簡單分析了一下Pipeline和Valve，並給出了整體的結構圖。而這一節，我們

CSAPP（四）——處理器體系架構

指令集在CPU和程式設計師（編譯器）之間提供了一個抽象層，看起來，CPU在一條接著一條的順序執行編譯後的指令，但出於效能考慮實際情況卻遠比這個“看起來”要複雜。現代CPU使用一種稱作“流水線”的技術來執行每一條

Transformer架構記錄（四）

Masked Multi-Head Attention

第二個 Multi-Head Attention

通過堆疊多個 Decoder block ，得到解碼器 Decoder.

預測輸出

相關推薦