經典網路結構梳理：SSD目標檢測演算法。

阿新 • • 發佈：2019-01-04

SSD全稱：Single Shot MultiBox Detector 是2016年ICCV的一篇論文。是目前為止主要的目標檢測演算法。

演算法的主要優點：

1. 速度比Faster-Rcnn快，精度比YOLO高。（在兼顧速度的同時，精度也很高。在不同的測試集下面結果都很不錯）。

2.為提高準確率在不同的特徵圖下面（不同的尺度下面）進行結果的預測特徵金字塔預測方式。

3.採用了END-TO-END的訓練方式，即使解析度比較小的圖片，分類結果也很準確。

SSD網路結構：

SSD 是基於一個前向傳播 CNN 網路，產生一系列固定大小（fixed-size）的 bounding boxes，以及每一個 box 中包含物體例項的可能性，即 score。之後，進行一個

非極大值抑制（Non-maximum suppression）得到最終的 predictions。SSD網路結構從圖中可以看出來分為兩部分基礎網路 + 金字塔網路。基礎網路是VGG-16的前4層網路。金字塔網路是特徵圖逐漸變小的簡單卷積網路由5部分構成。

1.Mult-scale feature map for detection

就是特徵金字塔檢測方式。從不同尺度的特徵圖下面來預測目標分類與位置。

2.Convolutional predictors for detection

在金字塔結構中每一部分都有3*3的卷積來進行預測，在某個位置上得到一個預測值，這個預測值可能是一個分類的得分，也可能是現對於預設框的的位置偏差。從圖3可以看出來conv6-2，conv7-2，conv8-2，conv9-2，fc7，conv4-2。

3.Default boxes and aspect ratio

在特徵圖的每個位置預測K個box，每個box預測c個分類得分，和4個現對於預設框的位置偏移量。那麼在m*n的特徵圖中就可以得到（c+4）*n*m個預測值。論文中的prior box 類似於Faster-Rcnn中的anchor。如下圖4所示。

圖2，SSD網路結構：

圖3，金字塔結構：

SSD網路訓練：

SSD 訓練影象中的 groundtruth 需要賦予到那些固定輸出的 boxes 上。SSD 輸出的是事先定義好的，一系列固定大小的 bounding boxes。

1.Matching strategy：主要介紹的是如何將GT與預設框組成label。

在開始的時候，用 MultiBox 中的 best jaccard overlap 來匹配每一個 ground truth box 與 default box，這樣就能保證每一個 groundtruth box 與唯一的一個 default box 對應起來。但是又不同於 MultiBox ，本文之後又將 default box 與任何的 groundtruth box 配對，只要兩者之間的jaccard overlap 大於一個閾值，這裡本文的閾值為 0.5。

2.Training objective：

總的目標損失函式（objective loss function）就由 localization loss（loc）與 confidence loss（conf）的加權求和：

其中：

NN 是與 ground truth box 相匹配的 default boxes 個數
localization loss（loc）是 Fast R-CNN 中 Smooth L1 Loss，用在 predict box（ll）與 ground truth box（gg）引數（即中心座標位置，width、height）中，迴歸 bounding boxes 的中心位置，以及 width、height
confidence loss（conf）是 Softmax Loss，輸入為每一類的置信度 cc
權重項 αα，設定為 1

3.Choosing scales and aspect ratios for default boxes：

大部分 CNN 網路在越深的層，feature map 的尺寸（size）會越來越小。這樣做不僅僅是為了減少計算與記憶體的需求，還有個好處就是，最後提取的 feature map 就會有某種程度上的平移與尺度不變性。

4.Hard negative mining：

在生成一系列的 predictions 之後，會產生很多個符合 ground truth box 的 predictions boxes，但同時，不符合 ground truth boxes 也很多，而且這個 negative boxes，遠多於 positive boxes。這會造成 negative boxes、positive boxes 之間的不均衡。訓練時難以收斂。

因此，本文采取，先將每一個物體位置上對應 predictions（default boxes）是 negative 的 boxes 進行排序，按照 default boxes 的 confidence 的大小。選擇最高的幾個，保證最後 negatives、positives 的比例在 1:3。

本文通過實驗發現，這樣的比例可以更快的優化，訓練也更穩定。

3.Data augmentation：

使用原始的影象
取樣一個 patch，與物體之間最小的 jaccard overlap 為：，，，與
隨機的取樣一個 patch

SSD存在的缺點：

1.需要手動設定引數prior box，無法通過訓練得到，依賴經驗。

2.存在著對小目標檢測效果不好的現象。

經典網路結構梳理：SSD目標檢測演算法。

經典網路結構梳理：SSD目標檢測演算法。

SSD 目標檢測演算法詳細總結分析（one-stage)(深度學習)(ECCV 2016)

SSD目標檢測演算法改進DSSD（反捲積）

為什麼SSD目標檢測演算法對小目標檢測的效果不好

目標檢測演算法另一分支的發展（one stage檢測演算法）：YOLO、SSD、YOLOv2/YOLO 9000、YOLOv3

常用目標檢測演算法：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

目標檢測演算法綜述：R-CNN，faster R-CNN，yolo，SSD，yoloV2

Domain Adaptive Faster R-CNN：經典域自適應目標檢測演算法，解決現實中痛點，程式碼開源 | CVPR2018

目標檢測演算法理解：從R-CNN到Mask R-CNN

Yolo-lite:實時的適用於移動裝置的目標檢測演算法(比ssd和mobilenet更快)

基於深度學習的目標檢測演算法綜述：演算法改進

目標檢測演算法的演進（two-stage檢測演算法）：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、Mask R-CNN

SSD目標檢測(1)：圖片+視訊內的物體定位（附原始碼）

論文筆記：目標檢測演算法（R-CNN，Fast R-CNN，Faster R-CNN，YOLOv1-v3）

目標檢測演算法圖解：一文看懂RCNN系列演算法

基於深度學習的目標檢測演算法綜述：常見問題及解決方案

CornerNet：目標檢測演算法新思路

SSD目標檢測(2)：如何製作自己的資料集（詳細說明附原始碼）

SSD目標檢測(3)：使用自己的資料集做預測（詳細說明附原始碼）

深度學習（目標檢測）---從RCNN到SSD，這應該是最全的一份目標檢測演算法盤點

經典網路結構梳理：SSD目標檢測演算法。

相關推薦