目標檢測之YOLOv3

阿新 • • 發佈：2021-08-01

　　YOLOv3沒有太多的創新，主要是借鑑一些好的方案融合到YOLO裡面。不過效果還是不錯的，在保持速度優勢的前提下，提升了預測精度，尤其是加強了對小物體的識別能力。本文主要講v3的改進，由於是以v1和v2為基礎，關於YOLOv1和YOLOv2的分析請移步YOLOv1 深入理解和YOLOv2/YOLO 9000深入理解。

　　YOLOv3的改進有：調整了網路結構；利用多尺度特徵進行物件檢測；物件分類用Logistic取代了softmax。

一，YOLOv3演算法

YOLOv3 處理流程

　　首先如上圖所示，在訓練過程中對於每幅輸入影象，YOLOv3會預測三個不同大小的3D tensor，對應著三個不同的scale。設計這三個scale的目的就是為了能夠檢測出不同大小的物體。在這裡我們以13*13的tensor為例做一個簡單講解。對於這個scale，原始輸入影象會被分割成13*13的grid cell，每個grid cell對應著3D tensor中的1*1*255這樣一個長條形voxel。255這個數字來源於(3*(4+1+80))，其中的數字代表bounding box的座標，物體識別度(objectness score)，以及相對應的每個class的confidence，具體釋義見上圖。

　　其次，如果訓練集中某一個ground truth對應的bounding box中心恰好落在了輸入影象的某一個grid cell中（如圖中的紅色grid cell），那麼這個grid cell就負責預測此物體的bounding box，於時這個grid cell所對應的objectness score就被賦予1，其餘的grid cell 則為0。此外，每個grid cell還被賦予3個不同大小的prior box。在學習過程中，這個grid cell會逐漸學會如何選擇哪個大小的prior box，以及對這個prior 波形進行微調（即offset/coordinate）。但是grid cell是如何知道該選取哪個prior box呢？在這裡作者定義了一個規則，即只選取與ground truth bounding box的IOU重合度最高的那個prior box。

　　上面說了有三個預設的不同大小的prior box，但是這三個大小是怎麼計算得來的呢？作者首先在訓練前，提前將COCO資料集中的所有bbox使用K-means clustering分成9個類別，每3個類別對應一個scale，這樣總共3個scale。這種關於box大小的先驗資訊極大地幫助網路準確的預測每個box的offset/coordinate，因為從直觀上，大小合適的box將會使網路更快速精準地學習。

　　YOLOv2已經開始採用K-means據類得到先驗框的尺寸，YOLOv3延續了這種方法，為每種下采樣尺度設定3種先驗框，總共聚類出9種尺寸的先驗框。在COCO資料集這9個先驗框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。分配上，在最小的13*13特徵圖上（有最大的感受野）應用較大的先驗框(116x90)，(156x198)，(373x326)，適合檢測較大的物件。中等的26*26特徵圖上（中等感受野）應用中等的先驗框(30x61)，(62x45)，(59x119)，適合檢測中等大小的物件。較大的52*52特徵圖上（較小的感受野）應用較小的先驗框(10x13)，(16x30)，(33x23)，適合檢測較小的物件。YOLOv3使用logistic regression為每個bounding box預測一個objectness score(用來表示該bounding box包含一個object的可能性)。在訓練時，如果該bounding box對應的prior(即anchor box)與一個ground truth box的IOU高於其它任何bounding box prior，那麼該bounding box的objectness score就被置為1；如果該bounding box對應的prior不是最好的但是又確實與一個ground truth box的IOU高於設定的閾值，那麼該bounding box會被忽略。論文中作者使用的閾值是0.5。另外，YOLOv3在訓練時為每個ground truth object只分配一個bounding box prior（相當於一個bounding box，因為每個cell有k個bounding box prior，每個bounding box prior對應一個bounding box）。如果一個bounding box沒有分配到ground truth object，那麼在計算定位損失和分類損失時它不會被考慮在內，也就是說只有包含ground truth object的bounding box才會參與訓練損失的計算。

1.1，網路模型結構

　　下圖是YOLOv3的網路模型結構圖，此結構主要由75個卷積層構成，卷積層對於分析物體特徵最為有效。由於沒有使用全連線層，該網路可以對應任意大小的輸入影象。此外，池化層也沒有出現在YOLOv3當中，取而代之的是將卷積層的stride設為2來達到下采樣的效果，同時將尺度不變特徵傳送到下一層。除此之外，YOLOv3中還使用了類似ResNet和FPN網路的結構，這兩個結構對於提高檢測精度也是大有裨益。

1.2 3 Scales：更好的對應不同大小的目標物體

　　通常一幅影象包含各種不同的物體，並且有大有小。比較理想的是一次就可以將所有大小的物體同時檢測出來。因此，網路必須具備能夠“看到”不同大小的物體的能力。並且網路越深，特徵圖就會越小，所以越往後的物體也就越難檢測出來。SSD中的做法是，在不同深度的feature map獲得後，直接進行目標檢測，這樣小的物體會在相對較大的feature map中被檢測出來，而大的物體會在相對較小的feature map中被檢測出來，從而達到對應不同scale的物體的目的。

　　然而在實際的feature map中，深度不同所對應的feature map包含的資訊就不是絕對相同的。舉例說明，隨著網路深度的加深，淺層的feature map中主要包含低階的資訊（物體邊緣，顏色，初級位置資訊等），深層的feature map中包含高等資訊（例如物體的語義資訊：狗，貓，汽車等等）。因此在不同級別的feature map中進行檢測，聽起來好像可以對應不同的scale，但是實際上精度並沒有期待的那麼高。

　　在YOLOv3中，這一點是通過採用FPN結構來提高對應多重scale的精度的。

多重scale主流方法

　　如圖所示，對於多重scale，目前主要有以下幾種主流方法。

　　(a) 這種方法最直觀。首先對一幅影象建立影象金字塔，不同級別的金字塔影象被輸入到對應的網路當中，用於不同scale物體的檢測。但這樣做的結果就是每個級別的金字塔都需要進行一次處理，速度很慢。

　 (b) 檢測直再最後一個feature map階段進行，這個結構無法檢測不同大小的物體。

　　(c)對不同深度的feature map分別進行目標檢測。SSD中採用的便是這樣的結構。每一個feature map獲得的資訊僅來源於之前的層，之後的層的特徵資訊無法獲取並加以利用。

　　(d)與(c)很接近，但有一點不同的是，當前層的feature map會對未來層的feature map進行上取樣，並加以利用。這是一個有跨越性的設計。因為有了這樣一個結構，當前的feature map就可以獲得“未來”層的資訊，這樣的話低階特徵與高階特徵就有機融合起來了，提升檢測精度。

1.3 ResNet殘差結構：更好的獲取物體特徵

　　YOLOv3中使用了ResNet結構（對應著在上面的YOLOv3結構圖中的Residual Block）。Residual Block是有一系列卷積層和一條shortcut path組成。shortcut如下圖所示：

　　圖中曲線箭頭代表的便是shortcut path。除此之外，此結構與普通的CNN結構並無區別。隨著網路越深，學習特徵的難度也就越來越大。但是如果我們加一條shortcut path的話，學習過程就從直接學習特徵，變成在之前學習的特徵的基礎上新增某些特徵，來獲得更好的特徵。這樣一來，一個複雜的特徵H(x)，之前是獨立一層一層學習的，現在就變成了這樣一個模型H(x)=F(x)+x，其中x是shortcut開始時的特徵，而F(x)就是對x進行的填補與增加，成為殘差。因此學習的目標就從學習完整的資訊，變成學習殘差了。這樣以來學習優質特徵的難度就大大減小了。

1.4 替換softmax層：對應多重label分類

　　Softmax層被替換為一個1*1的卷積層+logistic啟用函式的結構。使用softmax層的時候其實已經假設每個輸出僅對應某一個單個的class，但是在某些class存在重疊情況（例如woman和person）的資料集中，使用softmax就不能使網路對資料進行很好的擬合。

（未完待續）

摘自：

參考：

　　https://www.cnblogs.com/Lilu-1226/p/10587987.html

　　https://zhuanlan.zhihu.com/p/76802514

目標檢測之YOLOv3

一，YOLOv3演算法

1.1，網路模型結構

1.2 3 Scales：更好的對應不同大小的目標物體

1.3 ResNet殘差結構：更好的獲取物體特徵

1.4 替換softmax層：對應多重label分類

目標檢測之YOLOv3

單階段目標檢測演算法YOLOv3

目標檢測之非極大值抑制(NMS)各種變體

目標檢測之評價指標 - mAP

顯著性目標檢測之Learning to Promote Saliency Detectors

我們是如何改進YOLOv3進行紅外小目標檢測的？

YOLO目標檢測系列 YOLOv1, YOLO9000(v2), YOLOv3

目標檢測演算法之SSD

python opencv根據顏色進行目標檢測的方法示例

python:目標檢測模型預測準確度計算方式(基於IoU)

python目標檢測給圖畫框,bbox畫到圖上並儲存案例

Windows版YOLOv4目標檢測實戰：訓練自己的資料集

曠世提出類別正則化的域自適應目標檢測模型，緩解場景多樣的痛點 | CVPR 2020

OpenCV+python實現實時目標檢測功能

[Python影象處理]十一.影象銳化與邊緣檢測之Roberts運算元、Prewitt運算元、Sobel運算元和Laplacian運算元

5個步驟實現目標檢測

目標檢測中的資料增強技術

目標檢測中的IOU和CIOU原理講解以及應用（附測試程式碼）

單目標跟蹤之相關濾波 MOSSE

【天池大賽】通用目標檢測的對抗攻擊方法一覽

目標檢測之YOLOv3

一，YOLOv3演算法

1.1，網路模型結構

1.2 3 Scales：更好的對應不同大小的目標物體

1.3 ResNet殘差結構：更好的獲取物體特徵

1.4 替換softmax層：對應多重label分類

相關推薦