BoTNet:Bottleneck Transformers for Visual Recognition

阿新 • • 發佈：2021-12-27

【GiantPandaCV導語】基於Transformer的骨幹網路，同時使用卷積與自注意力機制來保持全域性性和區域性性。模型在ResNet最後三個BottleNeck中使用了MHSA替換3x3卷積。屬於早期的結合CNN+Transformer的工作。簡單來講Non-Local+Self Attention+BottleNeck = BoTNet

引言

本文的發展脈絡如下圖所示：

實際上沿著Transformer Block改進的方向進行的，與CNN架構也是相容的。具體結構如下圖所示：

兩者都遵循了BottleNeck的設計原則，可以有效降低計算量。

設計Transformer中self attention存在幾個挑戰：

圖片尺寸比較大，比如目標檢測中解析度在1024x1024
記憶體和計算量的佔用高，導致訓練開銷比較大。

本文設計如下：

使用卷積識別底層特徵的抽象資訊。
使用self attention處理通過卷積層得到的高層資訊。

這樣可以有效處理大解析度影象。

方法

BoTNet中MHSA模組如下圖所示：

上邊的這個MHSA Block是核心創新點，其與Transformer中的MHSA有所不同：

由於處理物件不是一維的，而是類似CNN模型，所以有非常多特性與此相關。
歸一化這裡並沒有使用Layer Norm而是採用的Batch Norm，與CNN一致。
非線性啟用，BoTNet使用了三個非線性啟用

左側content-position模組引入了二維的位置編碼，這是與Transformer中最大區別。

由於該模組是處理BxCHW的形式，所以難免讓人想起來Non Local 操作，這裡列出筆者以前繪製的一幅圖：

可以看出主要區別就是在於Content-postion模組引入的位置資訊。

BoTNet細節設計：

整體的設計和ResNet50幾乎一樣，唯一不同在於最後一個階段中三個BottleNeck使用了MHSA模組。具體這樣做的原因是Self attention需要消耗巨大的計算量，在模型最後加入時候feature map的size比較小，相對而言計算量比較小。

實驗

在目標檢測和分割領域效能對比

解析度改變對BoTNet幫助更大

消融實驗-相對位置編碼

BoTNet對ResNet系列模型的提升

BoTNet與更大的圖片適配

BoTNet與Non-Local Net的比較

與ImageNet上結果比較

模型放縮的影響

顯示卡香氣飄來，又是谷歌的騷操作，將EfficientNet方法放在BoTNet上：

可以看出與期望相符合，Transformer架構帶來的效能上限要高於CNN，雖然模型大小比較小的時候效能比較弱，但是模型量變大以後其效能就有了保證。

程式碼

核心模組：MHSA （由第三方進行實現）

class MHSA(nn.Module):
    def __init__(self, n_dims, width=14, height=14, heads=4):
        super(MHSA, self).__init__()
        self.heads = heads

        self.query = nn.Conv2d(n_dims, n_dims, kernel_size=1)
        self.key = nn.Conv2d(n_dims, n_dims, kernel_size=1)
        self.value = nn.Conv2d(n_dims, n_dims, kernel_size=1)

        self.rel_h = nn.Parameter(torch.randn([1, heads, n_dims // heads, 1, height]), requires_grad=True)
        self.rel_w = nn.Parameter(torch.randn([1, heads, n_dims // heads, width, 1]), requires_grad=True)

        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x):
        n_batch, C, width, height = x.size()
        q = self.query(x).view(n_batch, self.heads, C // self.heads, -1)
        k = self.key(x).view(n_batch, self.heads, C // self.heads, -1)
        v = self.value(x).view(n_batch, self.heads, C // self.heads, -1)

        content_content = torch.matmul(q.permute(0, 1, 3, 2), k)

        content_position = (self.rel_h + self.rel_w).view(1, self.heads, C // self.heads, -1).permute(0, 1, 3, 2)
        content_position = torch.matmul(content_position, q)

        energy = content_content + content_position
        attention = self.softmax(energy)

        out = torch.matmul(v, attention.permute(0, 1, 3, 2))
        out = out.view(n_batch, C, width, height)

        return out

參考

https://arxiv.org/abs/2101.11605

https://zhuanlan.zhihu.com/p/347849929

https://github.com/leaderj1001/BottleneckTransformers/blob/main/model.py

跑不動ImageNet，想試試Vision Transformer的同學可以看看這個倉庫，

https://github.com/pprp/pytorch-cifar-model-zoo

在CIFAR10上測試：

python train.py --model 'botnet' --name "fast_training" --sched 'cosine' --epochs 100 --cutout True --lr 0.1 --bs 128 --nw 4

目前可以在100個epoch內達到驗證集91.1%的準確率。

程式碼改變世界

BoTNet:Bottleneck Transformers for Visual Recognition

【GiantPandaCV導語】基於Transformer的骨幹網路，同時使用卷積與自注意力機制來保持全域性性和區域性性。模型在ResNet最後三個BottleNeck中使用了MHSA替換3x3卷積。屬於早期的結合CNN+Transformer的工作。簡單來講

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

地址：https://arxiv.org/pdf/2006.11538.pdf github：https://github.com/iduta/pyconv 目前的卷積神經網路普遍使用3×3的卷積神經網路，通過堆疊3×3的卷積核和下采樣層，會在減少影象的大小的同時增加

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

論文標題：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition　　　　　　標題翻譯：用於視覺識別的深度卷積神經網路中的空間金字塔池

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

視覺識別和描述的長期遞迴卷積網路摘要：基於深度卷積網路的模型主導了最近的影象解釋任務。我們調查了也經常使用的模型是否對涉及序列，視覺和其他方面的任務有效。我們描述了一類遞迴卷積體系結構，它是

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://arxiv.org/pdf/2010.11929.pdf --------------------------------------------------------- 2021-08-30

閱讀論文：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

閱讀論文：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》來源：ICLR 2021 https://arxiv.org/abs/2010.11929

DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition

Introduction 作者認為解決如下兩個問題能有效增強GCN在動作識別中的能力： 1.在人類骨骼的不同部位中有著時空關聯性，但這些關聯性是動態的，而且在時空域中不同的動作關聯性也是不同的。因此提取這些關聯

Deep Residual Learning for Image Recognition 筆記

轉載於部落格 http://blog.csdn.net/cv_family_z/article/details/50328175 http://blog.csdn.net/u014114990/article/details/50505331

Consensus-Driven Propagation in Massive Unlabeled Data for Face Recognition 人臉聚類

看論文前可先看下作者自己在知乎的總結： https://zhuanlan.zhihu.com/p/51806059 這篇論文簡稱CDP，利用監督方式訓練一個度量模型判別圖片對判別進而實現人臉聚類，使用聚類的人臉來訓練人臉識別模型

MySQL：MySQL For Visual studio 1.2.9 解除安裝失敗

mysql解除安裝的時候遇到這樣的問題：這是MySQL的一個bug https://dev.mysql.com/downloads/file/?id=470092

殘差網路：《Deep Residual Learning for Image Recognition》

殘差網路：《Deep Residual Learning for Image Recognition》摘要：網路結構深度的表達對視覺識別任務而言至關重要，論文提出了一種殘差網路結構塊，使得網路的準確度能夠隨著深度的加深而升高。網路結構

CREST——Convolutional Residual Learning for Visual Tracking

CREST 在目標目標跟蹤領域，目前最常用大多以相關濾波為主。CREST作者認為現有的相關濾波方法將特徵提取與濾波器更新分離開，無法進行端到端訓練。而作者則提出了使用一層CNN網路來模擬相關濾波操作，並將特徵提取、

BoTNet:Bottleneck Transformers for Visual Recognition

引言

方法

實驗

程式碼

參考

BoTNet:Bottleneck Transformers for Visual Recognition

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

閱讀論文：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition

Deep Residual Learning for Image Recognition 筆記

Consensus-Driven Propagation in Massive Unlabeled Data for Face Recognition 人臉聚類

MySQL：MySQL For Visual studio 1.2.9 解除安裝失敗

殘差網路：《Deep Residual Learning for Image Recognition》

CREST——Convolutional Residual Learning for Visual Tracking

SymGAN—Exploiting Images for Video Recognition: Heterogeneous Feature Augmentation via Symmetric Adversarial Learning學習筆記

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

【論文翻譯】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations

FreePiano for Visual Studio 2019 日誌

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

閱讀CVPR論文“Local Relation Networks for Image Recognition”的小結

BoTNet:Bottleneck Transformers for Visual Recognition

引言

方法

實驗

程式碼

參考

相關推薦