讀論文系列：Object Detection ECCV2016 SSD

阿新 • • 發佈：2018-04-07

mat 輸入 gem 分類就是 box HR com 參考

轉載請註明作者：夢裏茶

Single Shot MultiBox Detector

Introduction

一句話概括：SSD就是關於類別的多尺度RPN網絡

基本思路：

基礎網絡後接多層feature map
多層feature map分別對應不同尺度的固定anchor
回歸所有anchor對應的class和bounding box

Model

技術分享圖片

輸入：300x300
經過VGG-16（只到conv4_3這一層）
經過幾層卷積，得到多層尺寸逐漸減小的feature map
每層feature map分別做3x3卷積，每個feature map cell(又稱slide window)對應k個類別和4個bounding box offset，同時對應原圖中6（或4）個anchor(又稱default box)

38x38, 最後3x3, 1x1三個feature map的每個feature map cell只對應4個anchor，分別為寬高比: 1:1兩種，1:2, 2:1兩種，因此總共有 38 * 38 * 4 + 19 * 19 * 6 + 10 * 10 * 6 + 5 * 5 * 6 + 3 * 3 * 4 + 1 * 1 * 4 = 8732 個anchor
其他feature map的feature map cell對應6個anchor，分別為寬高比: 1:1兩種，1:2, 2:1兩種，1:3， 3:1兩種
每層的feature map cell對應的anchor計算方法如下
位置：假設當前feature map cell是位於第i行，第j列，則anchor的中心為 ((i+0.5)/|f_k

|,(j+0.5)/|f_k|), f_k是第k層feature map的size（比如38）
- 縮放因子:
  
  其中s_min為0.2，s_max為0.9，m為添加的feature map的層數，縮放因子就是為不同feature map選擇不同的大小的anchor，要求小的feature map對應的anchor盡量大，因為越小的feature map，其feature map cell的感受野就越大
anchor寬高：

其中，a_r∈{1,2,3,1/2,1/3}，可以理解為在縮放因子選擇好anchor尺寸後，用a_r來控制anchor形狀，從而得到多尺度的各種anchor，當a_r=1時，增加一種 s_k=sqrt(s_k-1

s_k+1)，於是每個feature map cell通常對應6種anchor。
網絡的訓練目標就是，回歸各個anchor對應的類別和位置

Training

樣本

正樣本
選擇與bounding box jaccard overlap（兩張圖的交集/並集）大於0.5的anchor作為正樣本
樣本比例
Hard negative mining：由於負樣本很多，需要去掉一部分負樣本，先整圖經過網絡，根據每個anchor的最高類置信度進行排序，選擇置信度靠前的樣本，這樣篩選出來的負樣本也會更難識別，並且最終正負樣本比例大概是1:3

Loss

還是一如既往的location loss + classification loss，並為location loss添加了系數α（然而實際上α=1）進行平衡，並在batch維度進行平均

技術分享圖片

x是x_ij^p的集合x_ij^p={1,0}，用於判斷第i個anchor是否是第j個bounding box上的p類樣本
c是c_i^p的集合，c_i^p是第i個anchor預測為第p類的概率
l是預測的bounding box集合
g是ground true bounding box集合

其中定位loss與faster rcnn相同

技術分享圖片

這個式子裏的k不是很明確，其實想表達不算背景0類的意思，且前景類只為match的類算location loss

分類loss就是很常用的softmax交叉熵了

技術分享圖片

核心的內容到這裏就講完了，其實跟YOLO和faster rcnn也很像，是一個用anchor box充當固定的proposal的rpn，並且用多尺度的anchor來適應多種尺度和形狀的目標對象。

Detail

在訓練中還用到了data augmentation（數據增強/擴充），每張圖片多是由下列三種方法之一隨機采樣而來

使用整圖
crop圖片上的一部分，crop出來的min面積為0.1,0.3,0.5,0.7,0.9
完全隨機地crop

然後這些圖片會被resize到固定的大小，隨機水平翻轉，加入一些圖像上的噪聲，詳情可以參考另一篇論文：

Some improvements on deep convolutional neural network based image classification

從切除實驗中，可以看到data augmentaion是很重要的（從65.6到71.6）

技術分享圖片

這個表中還提到了atrous，其實是指空洞卷積，是圖像分割（deeplab）領域首先提出的一個卷積層改進，主要是能讓測試速度更快。具體可以參考 ICLR2015 Deeplab

從這個表中也可以看出多種形狀的anchor可以提升準確率

Result

輸入尺寸為300x300，batch size為8的SSD300可以做到實時(59FPS)且準確(74.3% mAP)的測試

Summary

SSD算是一個改進性的東西，站在Faster RCNN的肩膀上達到了實時且準確的檢測

讀論文系列：Object Detection ECCV2016 SSD

mat 輸入 gem 分類就是 box HR com 參考轉載請註明作者：夢裏茶 Single Shot MultiBox Detector Introduction 一句話概括：SSD就是關於類別的多尺度RPN網絡基本思路：基礎網絡後接多層feature m

讀論文系列：Object Detection SPP-net

多層彌補 match rop lte 圖片 detection orien img 本文為您解讀SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

讀論文：Object Detection

Object Detection Rich feature hierarchies for accurate object detection and semantic segmentation CVPR’14 問題之前最好的辦法很複雜滑動

論文翻譯——Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者：Dumitru Erhan,Christian Szegedy, Alexander Toshev等發表時間

[論文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features 簡介文章是2001年發表的，是一篇很經典的Object Detection的文章，而文章的亮點就在於使用了”Integral Image“計算Haar-like特徵，從而加

論文閱讀-《Object Detection Networks on Convolutional Feature Maps》

收錄於IEEE Transactions on Pattern Analysis and Machine Intelligence 2015 1.Background&Motivation

【論文筆記】視訊物體檢測(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection

1.Abstract 視訊中的物體檢測會受到諸如運動模糊、視訊散焦、奇特姿態等的影響。現有的工作嘗試從box-level使用temporal資訊，但是這種方法不能端到端地進行訓練。我們提出了FGFA，在frame-level使用temporal資訊。它將相

論文筆記：Learning Region Features for Object Detection

中心思想繼Relation Network實現可學習的nms之後，MSRA的大佬們覺得目標檢測器依然不夠fully learnable，這篇文章類似之前的Deformable ROI Pooling，主要在ROI特徵的組織上做文章，文章總結了現有的各種ROI Pooling變體，提出了一個統一的數學表示式

深度學習論文翻譯解析（四）：Faster R-CNN: Down the rabbit hole of modern object detection

論文標題：Faster R-CNN: Down the rabbit hole of modern object detection 論文作者：Zhi Tian , Weilin Huang, Tong He , Pan He , and Yu Qiao 論文地址：https://tryolab

論文閱讀筆記二十三：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

論文源址：http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC資料集上，最好的方法的思路是將低階資訊與較高層次的上下文資訊進行結合。該文的兩個亮點：（1）將CNN應用到re

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

論文源址：https://arxiv.org/abs/1506.01497 tensorflow程式碼：https://github.com/endernewton/tf-faster-rcnn 摘要目標檢測依賴於區域proposals演算法對目標的位置進

論文筆記：Feature Pyramid Networks for Object Detection

初衷 Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep

論文閱讀：You Only Look Once: Unified, Real-Time Object Detection

Preface 注：這篇今年 CVPR 2016 年的檢測文章 YOLO，我之前寫過這篇文章的解讀。但因為不小心在 Markdown 編輯器中編輯時刪除了。幸好同組的夥伴轉載了我的，我就直

目標檢測論文閱讀：Relation Networks for Object Detection

Relation Networks for Object Detection 論文連結：https://arxiv.org/abs/1711.11575 程式碼連結：暫無，尚不清楚是否會公開這個是CVPR 2018的文章，雖然並沒有什麼巧妙的設

論文閱讀筆記（二十二）：Feature Pyramid Networks for Object Detection（FPN）

Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning o

論文閱讀筆記（三十八）：Dynamic Zoom-in Network for Fast Object Detection in Large Images

We introduce a generic framework that reduces the computational cost of object detection while retaining accuracy for scenarios whe

目標檢測論文閱讀：Cascade R-CNN: Delving into High Quality Object Detection

Cascade R-CNN: Delving into High Quality Object Detection 樣本減少引發的過擬合在train和inference使用不一樣的閾值很容易導致mismatch(這一點在下面會有解釋) 作者為

RefineDet論文閱讀：Single-Shot Refinement Neural Network for Object Detection

裁剪部分損失函數過程 bject sin 關聯增加問題摘要 RefineDet是CVPR 2018的一篇論文，文中提出了一個新的single-shot檢測器RefineDet，實現了比二階段方法更高的準確率而且具有與一階段方法相當的效率。RefineDet包括兩

object detection（物體檢測）系列論文梳理

object detection論文閱讀梳理： 1、R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation 技術路線：selective s

【譯】Cascade R-CNN：Delving into High Quality Object Detection論文翻譯

CVPR 2018年論文：Cascade R-CNN----------------------------------------------------------------------------------------------------博主也是正在看這篇論文，

讀論文系列：Object Detection ECCV2016 SSD

Introduction

Model

Training

樣本

Loss

Detail

Result

Summary

相關推薦