大話注意力機制（Attention Mechanism）

阿新 • • 發佈：2019-06-14

當我們人類在看東西時，一般會將注意力集中注視著某個地方，而不會關注全部所有資訊。例如當我們一看到下面這張貓的圖片時，主要會將目光停留在貓的臉部，以及留意貓的軀幹，而後面的草地則會被當成背景忽略掉，也就是說我們在每一處空間位置上的注意力分佈是不一樣的。

通過這種方式，人類在需要重點關注的目標區域，會投入更多的注意力資源，以獲取更多的細節資訊，而抑制其它區域資訊，這樣使人類能夠利用有限的注意力資源從大量資訊中快速獲取到高價值的資訊，極大地提升了大腦處理資訊的效率。

那麼人類的這種“注意力機制”是否可用在AI中呢？
我們來看一下，圖片描述（Image Caption）中引入了“注意力機制”後的效果。“圖片描述”是深度學習的一個典型應用，即輸入一張圖片，AI系統根據圖片上的內容輸出一句描述文字出來。下面看一下“圖片描述”的效果，左邊是輸入原圖，下邊的句子是AI系統自動生成的描述文字，右邊是當AI系統生成劃橫線單詞的時候，對應圖片中聚焦的位置區域，如下圖：

可以看到，當輸出frisbee（飛碟）、dog（狗）等單詞時，AI系統會將注意力更多地分配給圖片中飛碟、狗的對應位置，以獲得更加準確地輸出，是不是很神奇呢，這又是如何實現的呢？

1、什麼是“注意力機制”
深度學習中的注意力機制（Attention Mechanism）和人類視覺的注意力機制類似，就是在眾多資訊中把注意力集中放在重要的點上，選出關鍵資訊，而忽略其他不重要的資訊。

2、Encoder-Decoder框架（編碼-解碼框架）
目前大多數的注意力模型附著在Encoder-Decoder框架下，所以我們先來了解下這個框架。Encoder-Decoder框架可以看作是一種文字處理領域的研究模式，該框架的抽象表示如下圖：

給定輸入X，通過Encoder-Decoder框架生成目標Y。其中，Encoder（編碼器）就是對輸入X進行編碼，通過非線性變換轉化為中間語義表示C；Decoder（解碼器），根據輸入X的語義表示C和之前已生成的歷史資訊生成目標資訊。
Encoder-Decoder框架是個通用框架，有很多的場景，在文字處理、影象處理、語音識別等各領域經常使用，Encoder、Decoder可使用各種模型組合，例如CNN/RNN/BiRNN/LSTM等。例如對於自動問答，X是一個問句，Y是答案；對於機器翻譯，X是一種語言，Y是另外一種語言；對於自動摘要，X是一篇文章，Y是摘要；對於圖片描述，X是一張圖片，Y是圖片的文字描述內容……

3、注意力模型
本文開頭講到的人類視覺注意力機制，它在處理資訊時注意力的分佈是不一樣的。而Encoder-Decoder框架將輸入X都編碼轉化為語義表示C，這樣就會導致所有輸入的處理權重都一樣，沒有體現出注意力集中，因此，也可看成是“分心模型”。
為了能體現注意力機制，將語義表示C進行擴充套件，用不同的C來表示不同注意力的集中程度，每個C的權重不一樣。那麼擴充套件後的Encoder-Decoder框架變為：

下面通過一個英文翻譯中文的例子來說明“注意力模型”。
例如輸入的英文句子是：Tom chase Jerry，目標的翻譯結果是“湯姆追逐傑瑞”。那麼在語言翻譯中，Tom, chase, Jerry這三個詞對翻譯結果的影響程度是不同的，其中，Tom, Jerry是主語、賓語，是兩個人名，chase是謂語，是動作，那麼這三個詞的影響程度大小順序分別是Jerry>Tom>chase，例如（Tom,0.3）(Chase,0.2) (Jerry,0.5)，不同的影響程度代表AI模型在翻譯時分配給不同單詞的注意力大小，即分配的概率大小。

使用上圖擴充套件了Ci的Encoder-Decoder框架，則翻譯Tom chase Jerry的過程如下。
生成目標句子單詞的過程如下面的形式：

其中，f1是Decoder（解碼）的非線性變換函式
每個Ci對應著不同的源單詞的注意力分配概率分佈，計算如下面的形式：

其中，f2函式表示Encoder（編碼）節點中對輸入英文單詞的轉換函式，g函式代表Encoder（編碼）表示合成整個句子中間語義表示的變換函式，一般採用加權求和的方式，如下式：

其中aij表示權重，hj表示Encoder的轉換函式，即h1=f2(“Tom”)，h2=f2(“Chase”),h3=f2(“Jerry”)，Tx表示輸入句子的長度
當i是“湯姆”時，則注意力模型權重aij分別是0.6, 0.2, 0.2。那麼這個權重是如何得到的呢？
aij可以看做是一個概率，反映了hj對ci的重要性，可使用softmax來表示：

其中，

這裡的f表示一個匹配度的打分函式，可以是一個簡單的相似度計算，也可以是一個複雜的神經網路計算結果。在這裡，由於在計算ci時還沒有h’i，因此使用最接近的h’i-1代替。當匹配度越高，則aij的概率越大。
因此，得出aij的過程如下圖：

其中，hi表示Encoder轉換函式，F(hj,Hi)表示預測與目標的匹配打分函式

將以上過程串起來，則注意力模型的結構如下圖所示：

其中，hi表示Encoder階段的轉換函式，ci表示語義編碼，h’i表示Decoder階段的轉換函式。

以上介紹的就是經典的Soft-Attention模型，而注意力模型按不同維度還有其它很多分類。

4、注意力模型的分類
按注意力的可微性，可分為：

Hard-Attention，就是0/1問題，某個區域要麼被關注，要麼不關注，這是一個不可微的注意力；
Soft-Attention，[0,1]間連續分佈問題，用0到1的不同分值表示每個區域被關注的程度高低，這是一個可微的注意力。

按注意力的關注域，可分為：

空間域(spatial domain)
通道域(channel domain)
層域(layer domain)
混合域(mixed domain)
時間域(time domain)

推薦相關閱讀

1、AI 實戰系列

2、大話深度學習系列

3、圖解 AI 系列

什麼是語義分割、例項分割、全景分割

4、AI 雜談

5、大資料超詳細系列

大話注意力機制（Attention Mechanism）

當我們人類在看東西時，一般會將注意力集中注視著某個地方，而不會關注全部所有資訊。例如當我們一看到下面這張貓的圖片時，

自然語言處理中的自注意力機制（Self-attention Mechanism）

from: https://www.cnblogs.com/robert-dlut/p/8638283.html 近年來，注意力（Attention）機制被廣泛應用到基於深度學習的自然語言處理(NLP)各個任務中，之前我對早期注意力機制進行過一些學習總結（可見http://www.cn

Java 垃圾回收機制（早期版本）

重新速度交互綜合技術 -1 遍歷我們後臺 Java 垃圾回收機制在我們普通理解來看，應該視為一種低優先級的後臺進程來實現的，其實早期版本的Java虛擬機並非以這種方式實現的。先從一種很簡單的垃圾回收方式開始。引用計數　　引用計數是一種簡單但是速度很慢

數據庫鎖機制（了解）

沒有需要 data 自身提交數據區別 eve 發生選擇 MySQL鎖定機制簡介數據庫鎖定機制簡單來說就是數據庫為了保證數據的一致性而使各種共享資源在被並發訪問訪問變得有序所設計的一種規則。對於任何一種數據庫來說都需要有相應的鎖定機制，所以MySQL自然也不能例外。

初識nginx反向代理和緩存機制（簡單實現）

修改請求轉發 b- nginx bin text pan types con 實現的需求圖：環境： nginx緩存和反向代理服務器：192.168.0.224 實際存儲數據機器：192.168.0.37 一、實現反向代理 1、安裝nginx，兩臺服務器

深入理解Java異常處理機制（籠統篇）

throw 種類型綜合 IV 算術其它 wid all 作用開篇 1.異常處理(Exception Handling)：　　就是一種解決這一問題的機制，能夠較好地處理程序不能正常運行的情況。 2.異常(Exception)：　　是程序在運行時可能出現的

5、AFM（Attention+FM）-----Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Network

factor eat .com 問題架構機器 tran 權重 machine 1、摘要：提出一個Attentional FM，Attention模型+因子分解機，其通過Attention學習到特征交叉的權重。因為很顯然不是所有的二階特征交互的重要性都是一樣的，如何

zookeeper的選舉機制（比較清晰）

一、前言　　前面學習了Zookeeper服務端的相關細節，其中對於叢集啟動而言，很重要的一部分就是Leader選舉，接著就開始深入學習Leader選舉。二、Leader選舉　　2.1 Leader選舉概述　　Leader選舉是保證分散式資料一致性的關鍵所在。當Zookeepe

java序列化機制（簡單使用）

轉載：孤傲蒼狼 https://www.cnblogs.com/xdp-gacl/p/3777987.html 詳細分析：http://www.importnew.com/24490.html 一、序列化和反序列化的概念　　把物件轉換為位元組序列的過程稱為物件的序列化。　　

核心的同步機制（原子鎖）

轉自https://blog.csdn.net/fenglifeng1987/article/details/8172975 摘自《linux裝置驅動開發詳解》第七章 1．設定原子變數的值 v

Android softap連線斷開訊息通知機制（Android O）

版權宣告：本文為博主原創文章，部落格地址：https://blog.csdn.net/h784707460/article/details/79788344，未經博主允許不得轉載。基於使用者需求、功耗優化等，Softap功能常常會在原生Android基礎上做一些定製，比如：STA的接

RabbitMQ 之訊息確認機制（事務+Confirm）

概述在 Rabbitmq 中我們可以通過持久化來解決因為伺服器異常而導致丟失的問題,除此之外我們還會遇到一個問題:生產者將訊息傳送出去之後,訊息到底有沒有正確到達 Rabbit 伺服器呢?如果不錯得數處理,我們是不知道的,(即 Rabbit 伺服器不會反饋任何訊息給生產者),也就是預設的情況下是不知道訊息

Boost.Interprocess使用手冊翻譯之六：同步機制（Synchronization mechanisms）

六．同步機制同步機制概述互斥量條件變數訊號量升級互斥量通過移動語義轉移鎖檔案鎖訊息佇列同步

Spring事務傳播機制（比較詳細）

文章一：我們都知道事務的概念，那麼事務的傳播特性是什麼呢？(此處著重介紹傳播特性的概念，關於傳播特性的相關配置就不介紹了，可以檢視spring的官方文件) 在我們用SSH開發專案的時候，我們一般都是將事務設定在Service層那麼當我們呼叫Service層的一個方法的時候它能夠保

Java反射機制（超詳細）

文章目錄反射機制是什麼反射機制能做什麼案例通過一個物件獲得完整的包名和類名例項化Class類物件獲取一個物件的父類與實現的介面通過反射機制例項化一個類的物件獲取某個類的全部屬性獲得某個

（六）RabbitMQ訊息佇列-訊息任務分發與訊息ACK確認機制（PHP版）

在前面一章介紹了在PHP中如何使用RabbitMQ，至此入門的的部分就完成了，我們內心中一定還有很多疑問：如果多個消費者消費同一個佇列怎麼辦？如果這幾個消費者分任務的權重不同怎麼辦？怎麼把同一個佇列不同級別的任務分發給不同的消費者？如果消費者異常離線怎麼辦？不要著急，後面將慢慢解開面紗。我們

java多執行緒之等待喚醒機制（wait-notify）

wait()、notify()、notifyAll()方法 Object類裡面提供了這幾個方法： wait()：讓當前執行緒處於等待（阻塞狀態），直到其他執行緒呼叫此物件的notify()或noti

ALSA音效卡驅動中的DAPM詳解之七：dapm事件機制（dapm event）

前面的六篇文章，我們已經討論了dapm關於動態電源管理的有關知識，包括widget的建立和初始化，widget之間的連線以及widget的上下電順序等等。本章我們準備討論dapm框架中的另一個機制：事件機制。通過dapm事件機制，widget可以對它所關心的dapm事

RabbitMQ之訊息確認機制（事務+Confirm）

概述在使用RabbitMQ的時候，我們可以通過訊息持久化操作來解決因為伺服器的異常奔潰導致的訊息丟失，除此之外我們還會遇到一個問題，當訊息的釋出者在將訊息傳送出去之後，訊息到底有沒有正確到達broker代理伺服器呢？如果不進行特殊配置的話，預設情況下發布操作是不會返回任何

JS執行機制（學習筆記）

程序和執行緒：程序是一個工廠，工廠之間相互獨立執行緒是工廠中的工人，多個工人（執行緒）協作完成任務工廠內有一個或多個工人-工人之間共享空間工廠的資源->系統分配的記憶體（獨立的一塊記憶體）工廠之間相互獨立->程序之間相互獨立多個工人協作完成任務-&

大話注意力機制（Attention Mechanism）

相關推薦