Encoder-Decoder模型和Attention模型

阿新 • • 發佈：2019-01-17

1.Encoder-Decoder模型及RNN的實現

所謂encoder-decoder模型，又叫做編碼-解碼模型。這是一種應用於seq2seq問題的模型。

那麼seq2seq又是什麼呢？簡單的說，就是根據一個輸入序列x，來生成另一個輸出序列y。seq2seq有很多的應用，例如翻譯，文件摘取，問答系統等等。在翻譯中，輸入序列是待翻譯的文字，輸出序列是翻譯後的文字；在問答系統中，輸入序列是提出的問題，而輸出序列是答案。

為了解決seq2seq問題，有人提出了encoder-decoder模型，也就是編碼-解碼模型。所謂編碼，就是將輸入序列轉化成一個固定長度的向量；解碼，就是將之前生成的固定向量再轉化成輸出序列。

此處輸入圖片的描述

當然了，這個只是大概的思想，具體實現的時候，編碼器和解碼器都不是固定的,可選的有CNN/RNN/BiRNN/GRU/LSTM等等，你可以自由組合。比如說，你在編碼時使用BiRNN,解碼時使用RNN，或者在編碼時使用RNN,解碼時使用LSTM等等。

這邊為了方便闡述，選取了編碼和解碼都是RNN的組合。在RNN中，當前時間的隱藏狀態是由上一時間的狀態和當前時間輸入決定的，也就是

ht=f(ht−1,xt)◂=▸ht=f⁡(◂,▸◂◽.▸ht−1,xt)

獲得了各個時間段的隱藏層以後，再將隱藏層的資訊彙總，生成最後的語義向量

C=q(h1,h2,h3,…,hTx)◂=▸C=q⁡(◂,▸h1,h2,h3,…,◂◽.▸hTx)

一種簡單的方法是將最後的隱藏層作為語義向量C，即

C=q(h1,h2,h3,…,hTx)=hTx◂=⋯▸C=q⁡(◂,▸h1,h2,h3,…,◂◽.▸hTx)=◂◽.▸hTx

解碼階段可以看做編碼的逆過程。這個階段，我們要根據給定的語義向量C和之前已經生成的輸出序列y1,y2,…yt−1◂,▸y1,y2,…⁢◂◽.▸yt−1來預測下一個輸出的單詞ytyt，即

yt=argmaxP(yt)=∏t=1Tp(yt|{y1,…,yt−1},C)◂=⋯▸yt=◂+▸a⁢r⁢g⁢m⁢a⁢x⁡P⁡(yt)=◂∏▸∏t=1Tp⁡(◂,▸yt|{◂,▸y1,…,◂◽.▸yt−1},C)

也可以寫作

yt=g({y1,…,yt−1},C)◂=▸yt=g⁡({◂,▸y1,…,◂◽.▸yt−1},C)

而在RNN中，上式又可以簡化成

yt=g(yt−1,st,C)◂=▸yt=g⁡(◂,▸◂◽.▸yt−1,st,C)

其中ss是輸出RNN中的隱藏層，C代表之前提過的語義向量，yt−1◂◽.▸yt−1表示上個時間段的輸出，反過來作為這個時間段的輸入。而g則可以是一個非線性的多層的神經網路，產生詞典中各個詞語屬於ytyt的概率。

encoder-decoder模型雖然非常經典，但是侷限性也非常大。最大的侷限性就在於編碼和解碼之間的唯一聯絡就是一個固定長度的語義向量C。也就是說，編碼器要將整個序列的資訊壓縮排一個固定長度的向量中去。但是這樣做有兩個弊端，一是語義向量無法完全表示整個序列的資訊，還有就是先輸入的內容攜帶的資訊會被後輸入的資訊稀釋掉，或者說，被覆蓋了。輸入序列越長，這個現象就越嚴重。這就使得在解碼的時候一開始就沒有獲得輸入序列足夠的資訊，那麼解碼的準確度自然也就要打個折扣了

2.Attention模型

為了解決這個問題，作者提出了Attention模型，或者說注意力模型。簡單的說，這種模型在產生輸出的時候，還會產生一個“注意力範圍”表示接下來輸出的時候要重點關注輸入序列中的哪些部分，然後根據關注的區域來產生下一個輸出，如此往復。模型的大概示意圖如下所示

此處輸入圖片的描述

相比於之前的encoder-decoder模型，attention模型最大的區別就在於它不在要求編碼器將所有輸入資訊都編碼進一個固定長度的向量之中。相反，此時編碼器需要將輸入編碼成一個向量的序列，而在解碼的時候，每一步都會選擇性的從向量序列中挑選一個子集進行進一步處理。這樣，在產生每一個輸出的時候，都能夠做到充分利用輸入序列攜帶的資訊。而且這種方法在翻譯任務中取得了非常不錯的成果。

在這篇文章中，作者提出了一個用於翻譯任務的結構。解碼部分使用了attention模型，而在編碼部分，則使用了BiRNN(bidirectional RNN,雙向RNN)

2.1 解碼

我們先來看看解碼。解碼部分使用了attention模型。類似的，我們可以將之前定義的條件概率寫作

p(yi|y1,…,yi−1,X)=g(yi−1,si,ci)◂=▸p⁡(◂,▸yi|y1,…,◂◽.▸yi−1,X)=g⁡(◂,▸◂◽.▸yi−1,si,ci)

上式sisi表示解碼器i時刻的隱藏狀態。計算公式是

si=f(si−1,yi−1,ci)◂=▸si=f⁡(◂,▸◂◽.▸si−1,◂◽.▸yi−1,ci)

注意這裡的條件概率與每個目標輸出yiyi相對應的內容向量cici有關。而在傳統的方式中，只有一個內容向量C。那麼這裡的內容向量cici又該怎麼算呢？其實cici是由編碼時的隱藏向量序列(h1,…,hTx)(◂,▸h1,…,◂◽.▸hTx)按權重相加得到的。

ci=∑j=1Txαijhjci=◂∑▸∑j=1Tx◂◽.▸αi⁢j⁢hj

由於編碼使用了雙向RNN，因此可以認為hihi中包含了輸入序列中第i個詞以及前後一些詞的資訊。將隱藏向量序列按權重相加，表示在生成第j個輸出的時候的注意力分配是不同的。αij◂◽.▸αi⁢j的值越高，表示第i個輸出在第j個輸入上分配的注意力越多，在生成第i個輸出的時候受第j個輸入的影響也就越大。那麼現在我們又有新問題了，αij◂◽.▸αi⁢j又是怎麼得到的呢？這個其實是由第i-1個輸出隱藏狀態si−1◂◽.▸si−1和輸入中各個隱藏狀態共同決定的。也即是

αij=exp(eij)∑Txk=1exp(eik)eij=a(si−1,hj)◂=⋯▸◂◽.▸αi⁢j=◂⋅▸e⁢x⁢p⁡(◂◽.▸ei⁢j)◂∑▸∑k=1Tx◂⋅▸e⁢x⁢p⁡(◂◽.▸ei⁢k)⁢◂◽.▸ei⁢j=a⁡(◂,▸◂◽.▸si−1,hj)

也就是說，si−1◂◽.▸si−1先跟每個hh分別計算得到一個數值，然後使用softmax得到i時刻的輸出在TxTx個輸入隱藏狀態中的注意力分配向量。這個分配向量也就是計算cici的權重。我們現在再把公式按照執行順序彙總一下：

eij=a(si−1,hj)αij=exp(eij)∑Txk=1exp(eik)ci=∑j=1Txαijhjsi=f(si−1,yi−1,ci)yi=g(yi−1,si,ci)◂=▸◂◽.▸ei⁢j=a⁡(◂,▸◂◽.▸si−1,hj)◂◽.▸αi⁢j=◂⋅▸e⁢x⁢p⁡(◂◽.▸ei⁢j)◂∑▸∑k=1Tx◂⋅▸e⁢x⁢p⁡(◂◽.▸ei⁢k)ci=◂∑▸∑j=1Tx◂◽.▸αi⁢j⁢hj◂=▸si=f⁡(◂,▸◂◽.▸si−1,◂◽.▸yi−1,ci)◂=▸yi=g⁡(◂,▸◂◽.▸yi−1,si,ci)

上面這些公式就是解碼器在第i個時間段內要做的事情。作者還給了一個示意圖：

QQ截圖20161015223332.jpg-20.6kB

2.2 編碼

相比於上面解碼的創新，這邊的編碼就比較普通了，只是傳統的單向的RNN中，資料是按順序輸入的，因此第j個隱藏狀態h→j◂◽.▸h→j只能攜帶第j個單詞本身以及之前的一些資訊；而如果逆序輸入，則h←j◂◽.▸h←j包含第j個單詞及之後的一些資訊。如果把這兩個結合起來，hj=[h→j,h←j]◂=▸hj=[◂◽.▸h→j,◂◽.▸h←j]就包含了第j個輸入和前後的資訊。

3.實驗結果

為了檢驗效能，作者分別使用傳統模型和attention模型在英語-法語的翻譯資料集上進行了測驗。

傳統模型的編碼器和解碼器各有1000個隱藏單元。編碼器中還有一個多層神經網路用於實現從隱藏狀態到單詞的對映。在優化方面，使用了SGD(minibatch stochastic gradient descent)以及Adadelta,前者負責取樣，後者負責優化下降方向。

得到的結果如下：
QQ截圖20161015224833.jpg-36.7kB

圖中RNNenc表示傳統的結構，而RNNsearch表示attention模型。後面的數字表示序列的長度。可以看到，不論序列長度，attention模型的效能均優於傳統的編碼-解碼模型。而RNNsearch-50甚至在長文字上的效能也非常的優異

除了準確度之外，還有一個很值得關注的東西：注意力矩陣。之前已經提過，每個輸出都有一個長為TxTx的注意力向量，那麼將這些向量合起來看，就是一個矩陣。對其進行視覺化，得到如下結果

QQ截圖20161015225911.jpg-63.7kB

其中x軸表示待翻譯的句子中的單詞(英語)，y軸表示翻譯以後的句子中的單詞(法語)。可以看到儘管從英語到法語的過程中，有些單詞的順序發生了變化，但是attention模型仍然很好的找到了合適的位置。換句話說，就是兩種語言下的單詞“對齊”了。因此，也有人把注意力模型叫做對齊(alignment)模型。而且像比於用語言學實現的硬對齊，這種基於概率的軟對齊更加優雅，因為能夠更全面的考慮到上下文的語境。

Encoder-Decoder模型和Attention模型

1.Encoder-Decoder模型及RNN的實現

2.Attention模型

2.1 解碼

2.2 編碼

3.實驗結果

深度學習筆記(六)：Encoder-Decoder模型和Attention模型

Encoder-Decoder模型和Attention模型

深度學習---深度學習筆記(七)：Encoder-Decoder模型和Attention模型

判別模型和生成模型

生成模型和判別模型

對星型模型和雪花模型的簡單理解

Actor模型和CSP模型的區別

【IM】關於引數模型和核模型的理解

MVC模型和MTV模型

機器學習之---生成模型和判別模型

判別模型和生成模型——機器學習

bs模型和cs模型

【機器學習】生成模型和判別模型

資料庫設計---PowerDesigner（物理模型和概念模型）

CNN模型和RNN模型在分類問題中的應用（Tensorflow實現）

tensorflow儲存模型和恢復模型

Tensorflow載入預訓練模型和儲存模型

揭祕阿里小蜜：基於檢索模型和生成模型相結合的聊天引擎

CSS學習—盒模型和佈局模型

Python機器學習筆記：深入理解Keras中序貫模型和函式模型

Encoder-Decoder模型和Attention模型

1.Encoder-Decoder模型及RNN的實現

2.Attention模型

2.1 解碼

2.2 編碼

3.實驗結果

相關推薦