Slow down, Keep learning and Enjoy life

阿新 • • 發佈：2019-01-13

1. 什麼是Attention機制？

其實我沒有找到attention的具體定義，但在計算機視覺的相關應用中大概可以分為兩種：

1）學習權重分佈：輸入資料或特徵圖上的不同部分對應的專注度不同，對此Jason Zhao在知乎回答中概括得很好，大體如下：
- 這個加權可以是保留所有分量均做加權（即soft attention）；也可以是在分佈中以某種取樣策略選取部分分量（即hard attention），此時常用RL來做。
- 這個加權可以作用在原圖上，也就是《Recurrent Model of Visual Attention》（RAM）和《Multiple Object Recognition with Visual Attention》（DRAM）；也可以作用在特徵圖上，如後續的好多文章（例如image caption中的《 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》)。
- 這個加權可以作用在空間尺度上，給不同空間區域加權；也可以作用在channel尺度上，給不同通道特徵加權；甚至特徵圖上每個元素加權。
- 這個加權還可以作用在不同時刻歷史特徵上，如Machine Translation。

2）任務聚焦：通過將任務分解，設計不同的網路結構（或分支）專注於不同的子任務，重新分配網路的學習能力，從而降低原始任務的難度，使網路更加容易訓練。

2. Attention機制應用在了哪些地方？

針對於1部分中的attention的兩大方式，這裡主要關注其在視覺的相關應用中。

2.1 方式一：學習權重分佈

&1.（精細分類）Jianlong Fu, Heliang Zheng, Tao Mei (Microsoft Research), Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition, CVPR2017 （這個文章很有意思）

在關注的每一個目標尺度上，都採用一個分類的網路和一個產生attention proposal 的網路(APN)。本文最有趣的就是這個APN。這個APN由兩個全連線層構成，輸出3個引數表示方框的位置，接下來的尺度的分類網路只在這個新產生的方框影象中提特徵進行分類。怎麼訓練呢？本文定義了一個叫做rank Loss，用這個loss來訓練APN，並強迫finer的尺度得到的分類結果要比上一個尺度的好，從而使APN更提取出更有利於精細分類的目標區域性出來。通過交替迭代訓練，APN將越來越聚焦目標上的細微的有區分性的部分。當然這裡有一個問題，那就是精細尺度只能聚焦到最顯著的部位（如鳥頭），但其他部分（如羽毛、鳥爪）就關注不到了。
這裡寫圖片描述

&2. （影象分類）Fei Wang, etc. (SenseTime Group Limited). Residual Attention Network for Image Classification，CVPR2017

本文是在分類網路中，增加了Attention module。這個模組是由兩支組成，一支是傳統的卷積操作，另一支是兩個下采樣加兩個上取樣的操作，目的是獲取更大的感受野，充當attention map。因為是分類問題，所以高層資訊更加重要，這裡通過attention map提高底層特徵的感受野，突出對分類更有利的特徵。相當於變相地增大的網路的深度。
這裡寫圖片描述

&3.（影象分割）Liang-Chieh Chen，etc. (UCLA) Attention to Scale: Scale-aware Semantic Image Segmentation, CVPPR2016（權重視覺化效果有點意思）

通過對輸入圖片的尺度進行放縮，構造多尺度。傳統的方法是使用average-pooling或max-pooling對不同尺度的特徵進行融合，而本文通過構造Attention model（由兩個卷積層構成）從而自動地去學不同尺度的權重，進行融合（效果提升1到2個點吧，不同的資料集不一樣）。從論文中的權重視覺化的結果，能發現大尺寸輸入上，對應網路關注於small-scale objects，而在稍微小一點的尺寸輸入上，網路就關注於middle-scale，小尺寸輸入則關注background contextual information。視覺化效果感覺非常有意思。
這裡寫圖片描述

&4.（Image Caption看圖說話）Kelvin Xu，etc. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention，ICML2015
因為不做NLP，所以這個論文技術細節並沒有看懂。大意是對一個影象進行描述時，生成不同的單詞時，其重點關注的影象位置是不同的，視覺化效果不錯。
這裡寫圖片描述

2.2 方式二：任務聚焦/解耦

&1.（Instance Segmentation）Kaiming He, etc. Mask R-CNN（非常好的一篇文章）

Kaiming大神在Mask R-CNN中，將segment branch的損失函式由softmax loss換成了binary sigmoid loss。即是，將分類和分割任務進行解耦，當box branch已經分好類時，segment branch 就不用再關注類別，只需要關注分割，從而使網路更加容易訓練。具體到訓練中，假設分狗、貓、馬三類，segment branch會得到3個mask，當訓練樣本是狗類，那麼這個類別的loss才會被反傳，貓類和馬類對應的mask都不用管。也就是說，生成狗mask的那部分網路連線（卷積核）只需要聚焦於狗類的樣本，然後將屬於狗的畫素目標凸顯出來出來，訓練其他類別時不會對這些連線權重進行更新。通過這個任務解耦，分割的結果得到了很大的提升（5%-7%）。Kaiming大神在文中也指出，當只輸出一個mask時，分割結果只是略差，從而進一步說明了將分類和分割解耦的作用。

&2. （影象分割）Lin etc. Fully Convolutional Network with Task Partitioning for Inshore Ship Detection in Optical Remote Sensing Images

針對靠岸艦船，本文通過任務解耦的方法來處理。因為高層特徵表達能力強，分類更準，但定位不準；底層低位準，但分類不準。為了應對這一問題，本文利用一個深層網路得到一個粗糙的分割結果圖（船頭/船尾、船身、海洋和陸地分別是一類）即Attention Map；利用一個淺層網路得到船頭/船尾預測圖，位置比較準，但是有很多虛景。訓練中，使用Attention Map對淺層網路的loss進行引導，只反傳在粗的船頭/船尾位置上的loss，其他地方的loss不反傳。相當於，深層的網路能得到一個船頭/船尾的大概位置，然後淺層網路只需要關注這些大概位置，然後預測出精細的位置，影象中的其他部分（如船身、海洋和陸地）都不關注，從而降低了學習的難度。
這裡寫圖片描述

3.感想

總的來說，我覺得attention這個概念很有趣，使用attention也可以做出一些有意思的工作。相比於方式一，個人更喜歡方式二任務解耦，因為其對所解決的任務本身有更深刻的認識。當然上述介紹的論文，主要是關於high-level的任務，還沒看到attention在low-level的任務中的應用（也可能是自己查得不全），當然如何應用，這值得思考。

Slow down, Keep learning and Enjoy life

1. 什麼是Attention機制？

2. Attention機制應用在了哪些地方？

2.1 方式一：學習權重分佈

2.2 方式二：任務聚焦/解耦

3.感想

參考資料

Slow down, Keep learning and Enjoy life

Keep Thinking And Learning

Unsupervised Learning and Text Mining of Emotion Terms Using R

理解一下generative learning and discriminative learning algorithm

2018-08-20再啟程--Keep Learning, Keep Coding!

UVALive - 7041 The Problem to Slow Down You （回文樹）

讀《Tooth-Marked Tongue Recgnition Using Multiple Instance Learning and CNN Features》

15.Relational inductive biases, deep learning, and graph networks

Anle138b Slows Down the Onset and Progression of Parkinson’s Disease

論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

1.Intro to Deep Learning and Computer Vision

機器學習（Machine Learning and Data Mining）CS 5751——Lab1作業記錄

Slow down

Machine Learning is Fun! Part 3: Deep Learning and Convolutional Neural Networks

Machine Learning is Fun Part 5: Language Translation with Deep Learning and the Magic of Sequences

【Keep Learning】學習Spark、CarbonData 、Alluxio等，且為其Contributor，Github為：https://github.com/xubo245。歡迎微信聯絡601450868！

【譯】Relational inductive biases, deep learning, and graph network（未完成）

Keep Learning（學習Spark、CarbonData 、Alluxio等，且為其Contributor，Github為：https://github.com/xubo245。歡迎微信聯絡601450868！）

We Need a Cyber Arms Control Treaty to Keep Hospitals and Power Grids Safe from Hackers

bcr vidcast 112: Machine learning and how we will deal with it

Slow down, Keep learning and Enjoy life

1. 什麼是Attention機制？

2. Attention機制應用在了哪些地方？

2.1 方式一：學習權重分佈

2.2 方式二：任務聚焦/解耦

3.感想

參考資料

相關推薦