SSD（Single Shot MultiBoxDetector）目標檢測

阿新 • • 發佈：2019-01-16

這裡寫圖片描述
借鑑YOLO：直接回歸bbox和分類概率；
借鑑Faster R-CNN：使用anchor提升識別準確度;
借鑑FPN：加入金字塔的檢測方式；
結合兩者優點，提高速度上超過YOLO，精度上與Faster R-CNN媲美；

網路結構

base network

採用VGG19提取卷積特徵，在後面新增一系列卷積層，進行多尺度檢測，低層特徵保留影象的細節資訊，用於檢測較小的目標，高層特徵用於檢測較大的目標。如下圖所示：
這裡寫圖片描述
在base network基礎上新增輔助結構：
1. 多尺度預測：在base network後，新增一些卷積層，這些層的大小逐漸減小，可以進行多尺度預測
2. 在特徵圖上預測：在特徵圖的每個位置預測K個box。對於每個box，預測C個類別得分，以及相對於default bounding box的4個偏移值，這樣需要(C+4)*k個預測器，在m*n的特徵圖上將產生(C+4)*k*m*n個預測值。這裡，default bounding box類似於FasterRCNN中anchors。
這裡寫圖片描述

而SSD採用了特徵金字塔結構進行檢測，即檢測時利用了conv4-3，conv-7（FC7），conv6-2，conv7-2，conv8_2，conv9_2這些大小不同的feature maps，在多個feature maps上同時進行softmax分類和位置迴歸。
這裡寫圖片描述

SSD在不同的特徵層中考慮不同的尺度，RPN在一個特徵層考慮不同的尺度。

anchor box

作為一些目標的候選框，後續通過softmax分類+bounding box regression獲得真實目標的位置。
生成規則：以feature map上每個點的中點為中心（offset=0.5），生成一些列同心的prior box（然後中心點的座標會乘以step，相當於從feature map位置映射回原圖位置）

長寬規則

正方形：最小正方形：min_size，最大正方形邊長：這裡寫圖片描述
長方形：對於每個aspect ratio，生成2個長方形，長寬分別為和

確定min_size和max_size

這裡寫圖片描述
其中：m是使用feature map的數量；
第一層feature map對應的min_size=S1，max_size=S2；第二層min_size=S2，max_size=S3；其他類推。在原文中，Smin=0.2，Smax=0.9。
採用不同的aspect ratios：{1,2,3,1/2,1/3}

使用anchor box檢測

這裡寫圖片描述
在conv4_3 feature map網路pipeline分為了3條線路：
1. 經過一次batch norm+一次卷積後，生成了[1, num_class*num_priorbox, layer_height, layer_width]大小的feature用於softmax分類目標和非目標（其中num_class是目標類別，SSD 300中num_class = 21)。
2. 經過一次batch norm+一次卷積後，生成了[1, 4*num_priorbox, layer_height, layer_width]大小的feature用於bounding box regression（即每個點一組[dxmin，dymin，dxmax，dymax]。
3. 生成了[1, 2, 4*num_priorbox]大小的prior box blob，其中2個channel分別儲存prior box的4個點座標和對應的4個variance
這裡寫圖片描述

還有一個細節就是上面prototxt中的4個variance，這實際上是一種bounding regression中的權重。在圖4線路(2)中，網路輸出[dxmin，dymin，dxmax，dymax]，即對應下面程式碼中bbox；

decode_bbox->set_xmin(  
    prior_bbox.xmin() + prior_variance[0] * bbox.xmin() * prior_width);  
decode_bbox->set_ymin(  
    prior_bbox.ymin() + prior_variance[1] * bbox.ymin() * prior_height);  
decode_bbox->set_xmax(  
    prior_bbox.xmax() + prior_variance[2] * bbox.xmax() * prior_width);  
decode_bbox->set_ymax(  
    prior_bbox.ymax() + prior_variance[3] * bbox.ymax() * prior_height);

計算所有特徵輸出

這裡寫圖片描述
綜合6個featuremap的結果：使用Permute，Flatten和Concat層進行計算，計算方式如下：交換維度->展開->連線

Permute

作用：交換資料維度
bottom blob = [batch_num, channel, height, width]
top blob = [batch_num, height, width, channel]

Flatten

作用：將四維展開成兩維；
bottom blob = [batch_num, height, width, channel]
top blob = [batch_num, height*width*channel]

Concat

作用：拼接
這裡寫圖片描述
以conv4_3和fc7為例：

對於conv4_3 feature map，conv4_3_norm_priorbox（priorbox層）設定了每個點共有4個prior box。由於SSD 300共有21個分類，所以conv4_3_norm_mbox_conf的channel值為num_priorbox * num_class = 4 * 21 = 84；而每個prior box都要回歸出4個位置變換量，所以conv4_3_norm_mbox_loc的caffe blob channel值為4 * 4 = 16。
fc7每個點有6個prior box，其他feature map同理。
經過一系列圖7展示的caffe blob shape變化後，最後拼接成mbox_conf和mbox_loc。而mbox_conf後接reshape，再進行softmax（為何在softmax前進行reshape，Faster RCNN有提及）。
最後這些值輸出detection_out_layer，獲得檢測結果。

訓練

損失函式
總損失函式：loc（位置損失）+conf（置信度損失）

loc損失函式：

其實就是計算GTbox和prebox相對於anchor的座標值，相當於歸一化，分別對座標值對應相減後求smoothL1損失。
:

置信度損失：

SSD對小目標檢測效果不好，在mAP高於YOLO和Faster RCNN，速度低於YOLO，如下圖所示：
1. GT和anchor匹配策略：
  將每個groundtruth box與具有最大jaccard overlap的defalult box進行匹配，這樣保證每個groundtruth都有對應的default box；並且，將每個defalut box與任意ground truth配對，只要兩者的jaccard overlap大於某一閾值，本文取0.5，這樣的話，一個groundtruth box可能對應多個default box。
  1. Hard negative mining
    值得注意的是，一般情況下negative default boxes數量>>positive default boxes數量，直接訓練會導致網路過於重視負樣本，從而loss不穩定。所以需要採取：所以SSD在訓練時會依據confidience score排序default box，挑選其中confidience高的box進行訓練，控制positive：negative=1：3
2. Data augmentation
  進資料增廣，即每一張訓練影象，隨機的進行如下幾種選擇：
  使用原始的影象
  取樣一個 patch，與物體之間最小的 jaccard overlap 為：0.1，0.3，0.5，0.7 或 0.9
  隨機的取樣一個 patch
  取樣的 patch 是原始影象大小比例是[0.1，1]，aspect ratio在1/2與2之間。當 groundtruth box 的中心（center）在取樣的patch中時，保留重疊部分。在這些取樣步驟之後，每一個取樣的patch被resize到固定的大小，並且以0.5的概率隨機的水平翻轉（horizontally flipped）。

優缺點

優點：執行速度可以和YOLO媲美，檢測精度可以和Faster RCNN媲美。
缺點：
1. 需要人工設定prior box的引數（min_size，max_size和aspect_ratio）。網路中prior
box的基礎大小和形狀不能直接通過學習獲得，而是需要手工設定。而網路中每一層feature使用的prior
box大小和形狀恰好都不一樣，導致除錯過程非常依賴經驗。
2. 對小目標的recall一般。雖然採用了pyramdial feature hierarchy的思路，但是對小目標的recall依然一般，並沒有達到碾壓Faster RCNN的級別。作者認為，這是由於SSD使用conv4_3低階feature去檢測小目標，而低階特徵卷積層數少，存在特徵提取不充分的問題。