Spatial Transformer Networks

阿新 • • 發佈：2017-12-11

network 字符 cal csdn inpu 參考其中關鍵點我只

轉載自這裏

參考文獻：**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025.

摘要

卷積神經網絡（CNN）已經被證明能夠訓練一個能力強大的分類模型，但與傳統的模式識別方法類似，它也會受到數據在空間上多樣性的影響。這篇Paper提出了一種叫做空間變換網絡（Spatial Transform Networks， STN）,該網絡不需要關鍵點的標定，能夠根據分類或者其它任務自適應地將數據進行空間變換和對齊（包括平移、縮放、旋轉以及其它幾何變換等）。在輸入數據在空間差異較大的情況下，這個網絡可以加在現有的卷積網絡中，提高分類的準確性。

——————
由於我之前的工作部分涉及到人臉對齊，所以看到這篇Paper異常激動。總覺得能用它做點什麽。

算法介紹

算法總流程

STN 主要可以分為三個部分：1）localisation network. 2) grid generator. 3) sampler. (中文我翻譯不準確，大家意會下)。localisation network用來計算空間變換的參數 θ，grid generator則是得到input map U∈RH×W×C到 output map 各位置的V∈RH′×W′×C對應關系 Tθ， sampler根據input map U 和對應關系 Tθ，生成最終的output map. 流程圖如圖所示：

這裏寫圖片描述

1.1 Localisation Network

它的作用就是通過一個子網絡（全連接或者卷積網，再加一個回歸層），生成空間變換的參數θ。θ 的形式可以多樣，如需實現2D仿射變換，θ 就是一個6維（2x3）向量的輸出。

1.2 Parameterised Sampling Grid

假設U (不局限於輸入圖片，也可以是其它層輸出的feature map)每個像素的坐標為(xsi,ysi)， V 的每個像素坐標為(xti,yti), 空間變換函數 Tθ 為仿射變換函數，那麽 (xsi,ysi) 和 (xti,yti) 的對應關系可以寫為：

(xsiysi)=Tθ(Gi)=Aθ(xtiyti)
當然，Aθ也可以有其它形式，如3D仿射變換，透射變換等。

1.3 Differentiable Image Sampling

在計算得到 Tθ 後，就可以由以下公式 U 得到 V 了（省略推導公式若幹，只放上最終形式）：

Vci=∑nH∑mWUcnmmax(0,1?|xsi?m)|max(0,1?|ysi?n|)
在求得 V 後，當然少不了上述公式對 U, xs , ys的求導，以便根據loss進行網絡的後向傳播：

?Vci?Ucnm=∑nH∑mWmax(0,1?|xsi?m)|max(0,1?|ysi?n|)

?Vci?θ=???????Vci?xsi??xsi?θ?Vci?ysi??ysi?θ??????
而 ?xsi?θ, ?ysi?θ 根據具體的變換函數便可得到。

通過以上3個部分的結合，便形成了完整的 STN。

算法分析

STN 計算較快，幾乎沒有增加原有網絡模型的訓練時間。由於它能夠在訓練過程中，學習到與任務相關的空間變換參數，因此能夠進一步最小化網絡的損失函數。STN 不只可以用在輸入的圖像層，也可以加入卷積層或者其它層之後。

實驗結果

這篇文章分別在手寫文字識別、街景數字識別、鳥類分類以及共定位等方面做了實驗，這裏我只列出比較有代表性的手寫文字實驗部分。

實驗數據為MNIST，分別在經過不同處理（包括旋轉（R）、旋轉、縮放、平移（RTS），透射變換(P）)，彈性變形（E））的數據上進行字符識別的實驗。Baseline分別使用了兩種網絡結構FCN , CNN, 加入了 STN 的網絡為 ST-FCN, ST-CNN。其中，STN 采用了以下幾種變換方法：仿射變換（Aff )、透射變換（Proj )、以及薄板樣條變換（TPS )。下表列出了 STN 與 baseline 在MNIST上的比較結果，表中數據為識別錯誤率：
這裏寫圖片描述

可以看出，對不同的形式的數據，加入了STN 的網絡均優於 baseline 的結果。以下為 STN 對數字圖像進行變換後的結果，其中a列為原始數據，b列為變換參數的示意圖，c列為最終變換後的結果：
這裏寫圖片描述

總結

STN 能夠在沒有標註關鍵點的情況下，根據任務自己學習圖片或特征的空間變換參數，將輸入圖片或者學習的特征在空間上進行對齊，從而減少物體由於空間中的旋轉、平移、尺度、扭曲等幾何變換對分類、定位等任務的影響。加入到已有的CNN或者FCN網絡，能夠提升網絡的學習能力。

Spatial Transformer Networks

network 字符 cal csdn inpu 參考其中關鍵點我只轉載自這裏參考文獻：**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neu

自然場景文字處理論文整理（1）Spatial Transformer Networks

paper：Spatial Transformer Networks 在Theano框架中，STN演算法已經被封裝成API，可以直接呼叫。tensorflow實現見文章最後。 1、空間變換器的結構：這是一個可微分的模組，它在單個前向傳遞期間將空間變換應用於要素圖，其中變換以特

空間變換網路Spatial Transformer Networks(STN)

相關理論（見https://zhuanlan.zhihu.com/p/37110107）在理解STN之前，先簡單瞭解一下基本的仿射變換、雙線性插值。 1.仿射變換（Affine transformation）下面的所有變換假設都是針對一幅影象，即一個三維陣列（HWC），這裡為簡

深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、機器學習技術感興趣的同學加入。今天具體介紹一個Google DeepMind在15年提出的Spatial T

Spatial Transformer Networks(空間變換神經網路)

閒扯：大資料不如小資料這是一份很新的Paper(2015.6)，來自於Google旗下的新銳AI公司DeepMind的四位劍橋Phd研究員。他們針對CNN的特點，構建了一個新的區域性網路層，稱為空間變換層，如其名，它能將輸入影象做任意空間變換。大資料不如小資料，如果大資料不能被模型有效利用

Spatial Transformer Network

求導 ram ret als 每一個 mage 部分設置 row https://blog.csdn.net/yaoqi_isee/article/details/72784881 Abstract: 作者說明了CNN對於輸入的數據缺乏空間變換不變形(lack of sp

Convolutional Patch Networks with Spatial Prior for Road Detection and Urban Scene Understanding

line evel linux 程序 providing form ram -s visio Convolutional Patch Networks with Spatial Prior for Road Detection and Urban Sce

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

Spatial Transformer Networks

Spatial Transformer Networks

自然場景文字處理論文整理（1）Spatial Transformer Networks

空間變換網路Spatial Transformer Networks(STN)

深度學習方法（十二）：卷積神經網路結構變化——Spatial Transformer Networks

Spatial Transformer Networks(空間變換神經網路)

Spatial Transformer Network

Convolutional Patch Networks with Spatial Prior for Road Detection and Urban Scene Understanding

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

【筆記】SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

oracle spatial操作geometry方法

LabelRank（A Stabilized Label Propagation Algorithm for Community Detection in Networks）非重疊社區發現

Shp上傳至Oracle Spatial

論文討論&&思考《Deformable Convolutional Networks》

openstack-wsgi的route中添加api流程具體解釋（os-networks）添加

Residual Networks

Supporting IPv6 DNS64/NAT64 Networks(審核被拒)

Spatial Transformer Networks

相關推薦