[NIPS2017]Attention is all you need

阿新 • • 發佈：2019-01-20

這篇文章是火遍全宇宙，關於網上的解讀也非常多，將自己看完後的一點小想法也總結一下。
看完一遍之後，有很多疑問，我是針對每個疑問都瞭解清楚後才算明白了這篇文章，可能寫的不到位，只是總結下，下次忘記了便於翻查。
一：Q，K， V 到底是什麼？
在傳統的seq2seq框架下：
query: seq2seq模型中decode時隱層向量S $_{t-1}$ ，記作q $_{t-1}$ , Q就是多個query組成的矩陣Q
value: seq2seq模型中encode時的隱層向量h $_i$ ，記作v $_i$ ， V是輸入序列中n個詞的embedding矩陣
key: 對h $_i$ 做了一次先行對映得到的向量，記作k $i$

_{i}

，K同上
在本文的transformer下，結合文字和圖：
(1) encoder self-attention
Q 就是input sequence(

w_1

w_2

, …,

w_i

, …,

w_n

)將其對映為word embedding後 (

x_1

x_2

, …,

x_i

, …,

x_n

），Q= (

x_1

x_2

, …,

x_i

, …,

x_n

)，並且 K=V=Q
(2) decoder self-attention
當t=0時，decoder self-attention的Q是<bos>的embedding, 當t=j時，Q=(E

_{&lt;bos&gt;}

, E

_{y1}

, …, E

_{y_{j-1}}

), 其中y

_{j-1}

是t=j-1時刻decoder的輸出. K=V=Q
(3) encoder-decoder self-attention
K=V是encoder的輸出，將encoder的輸出傳給decoder, 這一操作使得decoder可以獲取輸入

X

序列的資訊, 類似於傳統seq2seq中的decoder端的attention. Q是decoder self-attention的輸出.
在這裡插入圖片描述

二：怎麼理解self-attention, 怎麼做self-attention，為什麼用self-attention?
(1) 在傳統的 seq2seq 中的 encoder 階段，針對輸入 $X$

X

= (

x_1

x_2

, …,

x_i

, …,

x_n

)，經過RNN或LSTM變換後得到序列的隱層狀態

H

= (

h_1

h_2

, …,

h_i

, …,

h_n

)，但是此篇文章拋棄了 RNN，encoder 過程就沒了 hidden states，那拿什麼做 self-attention 呢？input 的 sequence 共有 n 個 word，將每一個 word 對映成 embedding, 就得到 n 個 embedding，可以用 embedding 代替 hidden state 做 self-attention 。所以 Q 就是一個n行

d_k

列的矩陣，這個矩陣就是n個詞的embedding，並且Q=K=V。那麼為什麼管Q 就是query呢？就是每次用一個詞的embedding，去計算其與剩下的（n-1）個詞的 embedding 的 match 程度（也就是 attention 的大小，這就是self-attention的意思了。
在這裡插入圖片描述

針對n個詞，一共要做n輪這樣的操作：
在這裡插入圖片描述

(2)首先將query 和每個key進行相似度計算得到權重，常用的相似度函式有點積拼接，感知機等
然後使用一個softmax函式對這些權重歸一化，最後權重與相應的鍵值value進行加權求和得到attention後的context
(3) 句子中的每個詞都要和該句子中的所有詞進行attention計算，目的是學習句子內部的詞以來關係，捕獲句子的內部結構。
三：怎麼理解 decoder self-attention中的Masked Multi-Head Attention

四：如何理解公式(1), 怎麼理解縮放因子 $\frac{1}{\sqrt{d_k}}$ ？
在這裡插入圖片描述
公式(1)中的softmax( $\frac{QK^T}{\sqrt{d_k}}$ ) 就是類似 $a_{ij}$ 和 $c_i$ 的計算，Q和K就相當於 $e_{ij}$ 計算中的 $S_{i-1}$ 和 $h_j$ ：

在這裡插入圖片描述
上圖中的Q換成q, K換成k

[NIPS2017]Attention is all you need

[NIPS2017]Attention is all you need

Paper Reading - Attention Is All You Need ( NIPS 2017 )

Attention is all you need及其在TTS中的應用Close to Human Quality TTS with Transformer和BERT

#論文閱讀#attention is all you need

Attention Is All You Need（Transformer）原理小結

Attention is all you need 論文詳解（轉）

[閱讀筆記]Attention Is All You Need - Transformer結構

pytorch求索(4): 跟著論文《 Attention is All You Need》一步一步實現Attention和Transformer

《Attention Is All You Need》

Attention is All You Need -- 淺析

Transformer【Attention is all you need】

bert之transformer（attention is all you need）

Attention is all you need閱讀筆記

一文讀懂「Attention is All You Need」| 附程式碼實現

釋出一年了，做NLP的還有沒看過這篇論文的嗎？--“Attention is all you need”

谷歌機器翻譯Attention is All You Need

論文閱讀-attention-is-all-you-need

Day3_attention is all you need 論文閱讀

All you need is attention（Tranformer） --學習筆記

Attention all you need

[NIPS2017]Attention is all you need

相關推薦