理解SSD多盒-實時目標檢測

阿新 • • 發佈：2019-01-11

這裡寫圖片描述
這幅圖片解釋了構成直觀的解釋關於SSD多盒目標檢測技術。
自從AlexNet在2012年ILSVRC比賽中對於影象識別任務打敗傳統計算機視覺方法後給研究界帶來風暴。在計算機視覺領域，傳統神經網路在影象分類表現出色，包含分類圖片，給定類別集合（例如貓，狗）使用網路來決定影象中呈現的最可信的類別。現在，深度學習網路比人類在影象分類表現更好。然而我們作為人類在觀察和互動世界時可以比分類影象任務做的更多。我們也定位和分類各個成分在我們的視覺中。這些是更復雜的任務。
1 The Region-Convolutional Neural Network(R-CNN)
研究員開發RCNN來處理目標檢測任務，定位和分類。廣泛地說，一個R-CNN是一種特別型別的CNN其能夠定位和檢測物體在影象中：輸出是一系列bounding box集合，很接近的匹配每個檢測的物體，也對於每個檢測的物體輸出類別。在RCNN之後發展了Fast-RCNN , Faster-RCNN，每一次提升是使用更快的網路完成實時目標檢測。但是上述網路仍然遺留一下問題：
a) 訓練資料是不實用的並且太長
b) 訓練要經歷多個階段（例如訓練region proposal 和分類器）
c) 網路在推論時太慢了（也就是當處理非訓練資料時）
幸運的是，現在新的技術出現來解決RCNN的瓶頸，能夠實時目標檢測。最有名的是YOLO（you only look once）和SSD multiBox（Single Shot Detector）.在本文中，我們將討論SSD。
2 Single Shot MultiBox Detector
SSD論文在2016年11月放出並達到當前最好的表現和精度對於目標檢測任務，74% mAP 每秒59幀在標準資料集PascalVOC和COCO。為了更好理解SSD，我們從解釋這個架構的名字來由開始：
* Single shot：這意味著物體定位和分類任務在單次網路傳播中完成
* MultiBox：這是對於bounding box迴歸技術的名稱
* Detector: 網路是一個物體檢測器，並能分類這些檢測的物體

3 架構
這裡寫圖片描述
當你看上述圖是，SSD的架構建立在一個VGG-16架構上，但拋棄了全連線層。使用VGG-16作為基網路的原因是因為其在高質量影象分類任務和它對於問題的流行性的高表現，遷移學習能幫助提高結果。而不是原始的VGG全連線層，一系列輔助卷積層（從conv6）被增加，因此能夠在多尺度提取特徵並逐漸減少輸入的大小到每個接下來的層。這裡寫圖片描述

4MultiBox
SSD的bounding box 迴歸技術受Szegedy的工作關於Multibox影響，一種對於快速類別不可知的bounding box座標提議方法。在MultiBox工作中使用Inception 風格的卷積網路。1*1 卷積幫助降維當維度的數量下降時（但是寬和高保持不變）
這裡寫圖片描述

MultiBox的損失函式也結合兩個重要組成：
1. 置信度損失：這度量多大置信度關於計算的Bounding box的物體性。分類的交叉熵被用來計算該損失。
2. 定位損失：這度量了網路預測的Bounding box和真實的box距離多遠，這裡使用L2範數。
關於損失的表達：multibox_loss = confidence_loss +alpha * location_loss.
alpha平衡定位損失的貢獻。目標是找到最優減少損失函式的引數值，因此讓預測值距離真實值更近。

5 multi-box 先驗和IOU
在Bounding box 生成的周圍邏輯旋轉更復雜。在Multibox中，研究員創造了我們稱為先驗（或者角點在Faster-RCNN）,就是提前就算，固定尺寸的bounding boxes很接近原始真實boxes的分佈。事實上這些先驗以他們的在並集率的交集集合選出（Intersection over Union ratio IOU, 有時也稱Jaccard 索引）大於0.5閾值的。因此MultiBox使用先驗開始作為預測並嘗試去迴歸更接近真實值的bounding box

這裡寫圖片描述
最後架構包含11個先驗每個特徵圖單元（8*8, 6*6, 4*4, 3*3, 2*2）和只有一個1*1 的特徵圖，導致最後每張圖片有1420個先驗，因此增強在多尺度下輸入影象的魯棒收斂，來檢測多種大小的物體。
最後MultiBox 只保留了前K個預測，其中有最小的定位和置信度損失。

6 SSD 提升
返回到SSD，一些調整增加去使網路更有能力去定位和分類物體。
固定先驗：不像MultiBox，每個特徵圖單元關聯一系列預設不同維度和方面比例的Bounding box。這些先驗是手動選擇，然而在MultiBox，他們被選擇因為他們的IOU關於真實值超過了0.5。在理論上應該允許SSD去泛化到任何輸入型別，不要求一個預訓練階段對於先驗生成。例如假設我們有數b個預設的bounding box在每個特徵圖單元上，c個類別取分類，在一個給定特徵圖大小為f = m * n ， SSD應該計算f（b+c）的值對於這個特徵圖。
定位損失：SSD使用平滑的L1範數來計算定位損失。沒有L2範數精確，但也很高效並給SSD更多空間對於調整，它沒有試圖為在bounding box預測的畫素級最好。
分類：MultiBox在分類任務表現差，然而SSD表現好。因此對於每個預測的bounding box，一系列c個類別預測被計算。

Training & Running SSD
資料集
Pascal VOC和COCO是較好的開始點。
預設的bounding boxes
推薦去計算一系列變化的bounding boxes，在不同尺度和方面比率來確保捕獲絕大多數的物體。SSD論文中每個特徵圖有6個bounding boxes。
特徵圖
特徵圖（也就是卷積塊的結果）是在不同尺度下影象中顯著特徵的表達。因此在多種特徵圖中跑MultiBox增加了最終檢測定位和分類的物體的似然。
7 Hard Negative Mining
在訓練彙總，大多數bounding box只有較低的IOU並因此被認為是負訓練樣本，我們可能最終使用不成比例的負樣本數在訓練中。因此不是使用所有負預測，而是保持一定負樣本到正樣本的比例為3：1。需要保持負樣本的原因是因為網路也需要學習和被更清晰的告知什麼組成了一個不正確的檢測。
這裡寫圖片描述

8 資料增強
SSD作者聲稱資料增強很重要來教會網路變得更魯棒對於輸入不同物體大小。他們生成額外的訓練樣本具有不同的IOU比例包含原始影象塊和隨機塊。並且，每個影象也隨機水平旋轉以0.5的概率，隱藏確保潛在物體出現在左和右具有相似的似然。

9 非最大抑制（Non-Maximun Suppression）
在SSD的一次前向傳輸在推斷是生成的大量boxes，有必要減少大量的Bounding box通過應用NMS技術：boxes具有一個置信度閾值少於cf(例如0.01) 和IOU少於lt（例如0.45）會被拋棄，只要前N個預測保留。這確保了只有最可能的預測被保留，噪音被移除。

10 額外知識
以下幾點觀察：
* 許多預設的boxes具有更精確的檢測，儘管這影響速度降低
* 在多層用MultiBox導致更好的預測，由於檢測器在多解析度中檢測特徵
* 80%的時間花在基VGG-16網路，這意味有一個更快的相同精度的網路 SSD的表現會更好。
* SSD 混淆相似類別的物體。這可能因為定位對於多類別是共享的
* SSD-500（最搞解析度使用512*512輸入影象）完成最好mAP 在PascalVOC2007 為76.8%，幀率為22
* SSD在相似的物體上產生較差的表現，因為他們可能沒有仔所有特徵圖中出現。增加輸入影象解析度能緩解問題但不能完全解決。
*

理解SSD多盒-實時目標檢測

理解SSD多盒-實時目標檢測

Faster R-CNN：利用區域提案網路實現實時目標檢測論文翻譯

深度學習（三）——tiny YOLO演算法實現實時目標檢測（tensorflow實現）

Faster R-CNN：用區域提案網路實現實時目標檢測

手把手教你如何用objection detection API實現實時目標檢測（三）

手把手教你如何用objection detection API實現實時目標檢測（二）

手把手教你如何用objection detection API實現實時目標檢測（一）

機器視覺 OpenCV—python 基於深度學習的實時目標檢測

mac下安裝darknet和opencv跑yolo-v2實時目標檢測

Yolo-lite:實時的適用於移動裝置的目標檢測演算法(比ssd和mobilenet更快)

深度學習之目標檢測常用演算法原理+實踐精講 YOLO / Faster RCNN / SSD / 文字檢測 / 多工網路

深度學習之目標檢測常用算法原理+實踐精講 YOLO / Faster RCNN / SSD / 文本檢測 / 多任務網絡

目標檢測之SSD：RefineNet演算法理解

CSMA/CD協議(載波偵聽多路訪問/碰撞檢測）最小幀長理解

學習筆記-目標檢測、定位、識別（RCNN，Fast-RCNN, Faster-RCNN，Mask-RCNN，YOLO，SSD 系列）

計算機視覺之目標檢測一之SSD

目標檢測演算法理解：從R-CNN到Mask R-CNN

目標檢測中對端對端（End to end）的理解

caffe-ssd使用預訓練模型做目標檢測

快速小目標檢測--Feature-Fused SSD: Fast Detection for Small Objects

理解SSD多盒-實時目標檢測

相關推薦