Attention機制的精要總結，附：中英文機器翻譯的實現！

1. 什麼是Attention機制

在“編碼器—解碼器（seq2seq）”⼀節⾥，解碼器在各個時間步依賴相同的背景變數來獲取輸⼊序列資訊。當編碼器為迴圈神經⽹絡時，背景變數來⾃它最終時間步的隱藏狀態。

現在，讓我們再次思考那⼀節提到的翻譯例⼦：輸⼊為英語序列“They”“are”“watching”“.”，輸出為法語序列“Ils”“regardent”“.”。不難想到，解碼器在⽣成輸出序列中的每⼀個詞時可能只需利⽤輸⼊序列某⼀部分的資訊。例如，在輸出序列的時間步1，解碼器可以主要依賴“They”“are”的資訊來⽣成“Ils”，在時間步2則主要使⽤來⾃“watching”的編碼資訊⽣成“regardent”，最後在時間步3則直接對映句號“.”。這看上去就像是在解碼器的每⼀時間步對輸⼊序列中不同時間步的表徵或編碼資訊分配不同的注意⼒⼀樣。這也是注意⼒機制的由來。

仍然以迴圈神經⽹絡為例，注意⼒機制通過對編碼器所有時間步的隱藏狀態做加權平均來得到背景變數。解碼器在每⼀時間步調整這些權重，即注意⼒權重，從而能夠在不同時間步分別關注輸⼊序列中的不同部分並編碼進相應時間步的背景變數。

在注意⼒機制中，解碼器的每⼀時間步將使⽤可變的背景變數。記 ct′ 是解碼器在時間步 t′ 的背景變數，那麼解碼器在該時間步的隱藏狀態可以改寫為：

\[s_{t^{′}}=g(y_{t^{′}-1},c_{t^{′}},s_{t^{′}-1})\]

這⾥的關鍵是如何計算背景變數 ct′ 和如何利⽤它來更新隱藏狀態 st′。下⾯將分別描述這兩個關鍵點。

2. 計算背景變數

我們先描述第⼀個關鍵點，即計算背景變數。下圖描繪了注意⼒機制如何為解碼器在時間步 2 計算背景變數。

函式 a 根據解碼器在時間步 1 的隱藏狀態和編碼器在各個時間步的隱藏狀態計算softmax運算的輸⼊。
softmax運算輸出概率分佈並對編碼器各個時間步的隱藏狀態做加權平均，從而得到背景變數。

令編碼器在時間步t的隱藏狀態為 ht，且總時間步數為 T。那麼解碼器在時間步 t′ 的背景變數為所有編碼器隱藏狀態的加權平均：

\[c_{t^{′}}=\sum_{t=1}^{T}\alpha_{t^{′}t}h_t\]

向量化計算背景變數

我們還可以對注意⼒機制採⽤更⾼效的⽮量化計算。我們先定義，在上⾯的例⼦中，查詢項為解碼器的隱藏狀態，鍵項和值項均為編碼器的隱藏狀態。

⼴義上，注意⼒機制的輸⼊包括查詢項以及⼀⼀對應的鍵項和值項，其中值項是需要加權平均的⼀組項。在加權平均中，值項的權重來⾃查詢項以及與該值項對應的鍵項的計算。

讓我們考慮⼀個常⻅的簡單情形，即編碼器和解碼器的隱藏單元個數均為 h，且函式 \(a(s,h)=s^Th\)。假設我們希望根據解碼器單個隱藏狀態 st′−1 和編碼器所有隱藏狀態 ht, t = 1, . . . , T來計算背景向量 ct′ 。我們可以將查詢項矩陣 Q 設為 \(s_{t^{′}-1}^T\)，並令鍵項矩陣 K 和值項矩陣 V 相同且第 t ⾏均為 \(h_t^T\)。此時，我們只需要通過⽮量化計算：

\[softmax(QK^T)V\]

即可算出轉置後的背景向量 \(c_{t^{′}}^T\)。當查詢項矩陣 Q 的⾏數為 n 時，上式將得到 n ⾏的輸出矩陣。輸出矩陣與查詢項矩陣在相同⾏上⼀⼀對應。

3. 更新隱藏狀態

現在我們描述第⼆個關鍵點，即更新隱藏狀態。以⻔控迴圈單元為例，在解碼器中我們可以對⻔控迴圈單元（GRU）中⻔控迴圈單元的設計稍作修改，從而變換上⼀時間步 t′−1 的輸出 yt′−1、隱藏狀態 st′−1 和當前時間步t′ 的含注意⼒機制的背景變數 ct′。解碼器在時間步: math:t’ 的隱藏狀態為：

\[s_{t^{′}}=z_{t^{′}}⊙s_{t^{′}-1}+(1-z_{t^{′}})⊙\tilde{s}_{t^{′}}\]

其中的重置⻔、更新⻔和候選隱藏狀態分別為：

\[r_{t^{′}}=\sigma(W_{yr}y_{t^{′}-1}+W_{sr}s_{t^{′}-1}+W_{cr}c_{t^{′}}+b_r)\]

\[z_{t^{′}}=\sigma(W_{yz}y_{t^{′}-1}+W_{sz}s_{t^{′}-1}+W_{cz}c_{t^{′}}+b_z)\]

\[\tilde{s}_{t^{′}}=tanh(W_{ys}y_{t^{′}-1}+W_{ss}(s_{t^{′}-1}⊙r_{t^{′}})+W_{cs}c_{t^{′}}+b_s)\]

其中含下標的 W 和 b 分別為⻔控迴圈單元的權重引數和偏差引數。

4. 發展

本質上，注意⼒機制能夠為表徵中較有價值的部分分配較多的計算資源。這個有趣的想法⾃提出後得到了快速發展，特別是啟發了依靠注意⼒機制來編碼輸⼊序列並解碼出輸出序列的變換器（Transformer）模型的設計。變換器拋棄了卷積神經⽹絡和迴圈神經⽹絡的架構。它在計算效率上⽐基於迴圈神經⽹絡的編碼器—解碼器模型通常更具明顯優勢。含注意⼒機制的變換器的編碼結構在後來的BERT預訓練模型中得以應⽤並令後者⼤放異彩：微調後的模型在多達11項⾃然語⾔處理任務中取得了當時最先進的結果。不久後，同樣是基於變換器設計的GPT-2模型於新收集的語料資料集預訓練後，在7個未參與訓練的語⾔模型資料集上均取得了當時最先進的結果。除了⾃然語⾔處理領域，注意⼒機制還被⼴泛⽤於影象分類、⾃動影象描述、脣語解讀以及語⾳識別。

5. 程式碼實現

注意力模型實現中英文機器翻譯

資料預處理

首先先下載本目錄的資料和程式碼，並執行 datautil.py，生成中、英文字典。
執行 train.ipynb，訓練時間會比較長。
測試模型，執行test.py檔案。

【機器學習通俗易懂系列文章】

6. 參考文獻

動手學深度學習

作者:@mantchs

GitHub:https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論！共同完善此專案！群號:【541954936】

相關推薦

Attention機制的精要總結，附：中英文機器翻譯的實現！

1. 什麼是Attention機制在“編碼器—解碼器（seq2seq）”⼀節⾥，解碼器在各個時間步依賴相同的背景變數來獲取輸⼊序列資訊。當編碼器為迴圈神經⽹絡時，背景變數來⾃它最終時間步的隱藏狀態。現在，讓我們再次思考那⼀節提到的翻譯例⼦：輸⼊為英語序列“They”“are”“watching”“.”，輸

C語言精要總結-內存地址對齊與struct大小判斷篇

超過等於合規占用編譯約定 long 並發分享在筆試時，經常會遇到結構體大小的問題，實際就是在考內存地址對齊。在實際開發中，如果一個結構體會在內存中高頻地分配創建，那麽掌握內存地址對齊規則，通過簡單地自定義對齊方式，或者調整結構體成員的順序，可以有效地減少內存使

Javascript中 this的精要總結

實例 ref 今天方法自動 console 網上這樣的理解對於javascript中this的指向問題，或許你和我一樣，總是很迷惑，今天通過學習了有些作者對這方面比較深刻的理解後，抄錄其中比較有用的精髓如下：本文主要引用至：追夢子，如有需要可以導向去閱讀。關鍵

<jsp:include>動作元素，附：最易出錯的一點

技術刪除 png 必須配置輸入 url地址第一步不可先定義一個date.jsp,再定義一個main.jsp。用<jsp:include plage = "相對url地址" flush = "true">，這個jsp標簽用於main的jsp文件中，可以

如何安裝Nexus Repository Manager OSS 3.x，如何搭建管理Maven私服，win10、win7通用安裝詳解，附：錯誤解決方案。

今天搭建一個Maven私服花了不少功夫，查閱了很多安裝的帖子以及百度了很多錯誤解決方案，然後將所有的帖子精華部分，附上我的經驗來帶給大家一個特別詳細的安裝方案，所以該文章大部分可以說是總結別人帖子。話不多說，開始安裝： 1.下載 &nb

微信小程式評論/留言功能，附：前端+後端程式碼+視訊講解！

前端介面：演示：  <form bindsubmit="formSubmit"> <input type="text" name="liuyantext" placeholder='輸入留言內容' class

開源物聯網框架ServerSuperIO 3.0正式釋出（C#），跨平臺：Win&Win10 Iot&Ubuntu&Ubuntu Mate，一套裝置驅動跨平臺掛載，附：開發套件和教程。

3.0版本主要更新內容： 1.增加跨平臺能力：Win&Win10 Iot&Ubuntu&Ubuntu Mate 2.統一裝置驅動介面：可以一套裝置驅動，跨平臺掛載執行，降低人力成本，提高開發效率。 3.增加二次開發套件：支援控制檯和UI介面兩種方式。 4.增加配置工具：

高薪程式設計師嫌棄女友工資低想要分手，網友：渣男滾粗！

有句古話叫門當戶對，說的是男女雙方之間如果想要在一起，那麼在家庭經濟上要差不多才合適。雖然有人詬病這種說法，認為真愛可以抵擋一切，然而真正到現實中時，這條規則依然適用。有一名女網友在網上講述了自己的遭遇：其男朋友是某杭州網際網路大廠的程式設計師，收入非常可觀，但嫌棄其工資太低

Attention機制的文章總結

這兩年，看到了很多關於attention機制的文章，尤其在影象領域。可能大家都覺得這個好用，從頂刊頂會到國產會議，這個attention機制偏低開花。本文結合自己的研究方向，簡單總結一下有關於attention機制的文章。由於我研究的是2D human pose estimation，我

PhpStorm中快捷鍵總結，附詳細使用說明

PhpStorm中的快捷鍵共分為9大類： 1.編輯相關 Ctrl + Space 最基本的自動完成提醒功能，提醒內容包括類名，方法名以及變數名。一般情況下輸入一個字母后會自動出現含該字母的自動提

夢想還是要有的，說不定哪天就實現了呢

找我通過我們一份夢想進入 cnp 比較習慣大家好！我是乾頤堂CCIE導師，CCIE培訓金牌講師達叔。本博客由乾頤堂達叔獨家冠名寫出，素材來自乾頤堂日常工作及達叔和他身邊的CCIE們的故事。我第一次聽到CISCO，那會是上大三，宿舍有個兄弟說你知道思科認證麽

程式設計師被領導半夜叫醒處理問題，堅持睡醒再說，網友：情商太低！

作為一名程式設計師，你覺得最不願意面對的事情是什麼呢？可能好多人會想到的就是線上系統出問題，這個的確令人厭煩，這個是所有事情中優先順序最高的了，不論你手頭的事情再怎麼重要，都沒有線上問題的重要，當然線上的小問題就不說了，如果是影響到整個業務流程的，那必須放下手頭的事情，優先解決線上問題，因為線上問題

Java程式設計師回國發展，卻不知面試情況，網友：待著吧！爭取移民

　　國外的程式設計師，專心寫程式並專研，他的級別和工資就會年年往上漲，和做管理的人員沒太大區別。國內的程式設計師這方面就杯具了，寫程式的工資基本低於管理者，迫於現實的生活壓力，不得不往賺錢更多的方向走。　　但是下面這位網友就決定回國發展了，美帝某大廠血拼幾年，由於公司內部

斯坦福大學教授寫給Python初學者的總結，希望對你們有幫助！

當我開始學習Python的時候，有些事我希望我一早就知道。我花費了很多時間才學會這些東西。我想要把這些重點都編纂到一篇文章當中。這篇文章的目標讀者，是剛剛開始學習Python語言的有經驗的程式設計師，想要跳過前幾個月研究Python使用的那些他們已經在用的類似工具。包管理和標

阿里十年Java架構經驗總結，這幾點尤為重要！

你有沒有靜下心來思考過：同樣是做了x年Java開發，為什麼你的技術比別人差很多？為什麼別人每月28K你卻只有10K？其實技術水平的高低和個人智商關係不大（畢竟能做Java程式設計開發大家都不會差），主要和勤奮程度、提升方法有關。勤奮程度不必多說，全靠自我監督和自制力。

阿里碼農：不想與同事一起吃飯算孤僻麼？沒啥聊，網友：我也是！

大多數情況下，做技術的人並不擅長交際，在公司全體的年會上就很容易看出這一點，如果一張大圓桌上，有技術和非技術的人都在，經過一次吃飯就大概知道誰是技術，誰不是技術了，一般低頭玩手機，說話不多的九成就應該是程式設計師了，非常愛說，能與周圍人都聊一遍的可能就是市場或者

入門chrome外掛開發教程和經驗總結，一篇就搞掂！

前言關於chrome extension的開發經驗總結或說明文件等資料很多，很多人在寫，然而，我也是一員。但是，也許這篇文章，可能給你一些不一樣的感受。這裡介紹的是80%你要開發擴充套件會碰到的問題前面部分大多數是一些基礎介紹，和別人的資料大同小異，但是用的是通俗的語言或者我自

15條經驗總結，讓FPGA設計更簡單！

好訊息：新年大促！《微控制器與嵌入式系統應用》2017全年電子刊合集僅售29.9！歡迎大家進入嵌

計算機各類會議及投稿文章總結，個人感覺入門超級有用！

1. 首先一定要注意雜誌的發表範圍, 超出範圍的千萬別投,要不就是浪費時間;另外，每個雜誌都有他們的具體格式要求，一定要按照他們的要求把論文寫好，免得浪費時間，前些時候，我的一個同事向一個著名的英文雜誌投稿，由於格式問題，人家過兩個星期就退回來了，而且說了很多難聽的話

SqlServer注意事項福運來原始碼出售總結，高階程式設計師必背！ Neko114

想成為一個高階程式設計師福運來原始碼出售QQ2952777280【話仙原始碼論壇】hxforum.com【木瓜原始碼論壇】papayabbs.com，資料庫的使用是必須要會的。而資料庫的使用純熟程度，也側面反映了一個開發的水平。下面介紹SqlServer在使用和設計的過程