1. 程式人生 > 其它 >基於深度學習的目標檢測綜述(一):簡介及骨幹網路

基於深度學習的目標檢測綜述(一):簡介及骨幹網路


這篇文獻的主要結構如下:

第1節,簡單介紹目標檢測的發展及兩類目標檢測演算法。

第 2 節中討論了骨幹網路,目標檢測器需要強大的骨幹網路來提取豐富的特徵。眾所周知,特定領域影象檢測器的典型管道是任務的基礎和里程碑。

在第 3 節中,本文闡述了之前提出的最具代表性和開創性的基於深度學習的目標檢測方法 比如說R-cnn,fastR-CNN,YOLO等。

第 4 節描述了常用資料集和指標。

第 5 節系統地解釋了一般物件檢測方法的分析。

第 6 節詳細介紹了物件檢測的五個典型領域和幾個流行的分支。

第 7 節發展趨勢總結 。

摘要

目標檢測是計算機視覺中最重要和最具挑戰性的分支之一,在人們的生活中得到了廣泛的應用,如監控安防、自動駕駛等,其目的是定位某一類語義物件的例項。隨著用於檢測任務的深度學習網路的快速發展,物體檢測器的效能得到了極大的提高。

為了全面深入地瞭解目標檢測領域的主要發展現狀,在本次調查中,我們首先分析了現有典型檢測模型的方法,並描述了基準資料集。之後,我們以系統的方式全面概述了各種物體檢測方法,涵蓋了一級和二級檢測器。此外,我們列出了傳統和新的應用3程式。還分析了物件檢測的一些代表性分支。最後,我們討論了利用這些物件檢測方法來構建有效且高效系統的架構,並指出一組發展趨勢以更好地遵循最先進的演算法和進一步的研究。

1,簡介

近幾年來,由於其廣泛的應用和最近的技術突破,物體檢測越來越受到關注。這項任務正在學術界和工業界的應用中進行廣泛研究,例如監控安全、自動駕駛、交通監控、無人機場景分析和機器人視覺。
在導致物體檢測技術快速發展的眾多因素中,顯著的貢獻應該歸功於深度卷積神經網路和 GPU 計算能力的發展

。在目前,深度學習模型已被廣泛應用於整個計算機視覺領域,包括通用目標檢測和特定領域目標檢測。
大多數最先進的目標檢測器利用深度學習網路作為其骨幹和檢測網路,分別從輸入影象(或視訊)、分類和定位中提取特徵。物件檢測是一種與計算機視覺和影象處理相關的計算機技術,它處理檢測數字影象和視訊中某一類(如人類、建築物或汽車)語義物件的例項。物件檢測的深入研究領域包括多類別檢測、邊緣檢測、顯著物件檢測、姿勢檢測、場景文字檢測、人臉檢測、和行人檢測等作為場景的重要組成部分。
此外,許多基準在物件中發揮了重要作用迄今為止的檢測領域,例如 Caltech[1]、KITTI[2]、ImageNet[3]、PASCAL VOC[4]、MS COCO [5] 和 Open Images V5[6]。在 ECCV VisDrone 2018 大賽中,主辦方釋出了一個新的基於無人機平臺的資料集 [7],這個資料集包含一個大型圖片和視訊的數量。

圖a,目標檢測主要任務(圖源網路,侵刪,非原文圖)

  • 兩類物體檢測器

目前特定領域影象物件檢測器通常可以分為兩類,一類是兩階段檢測器,最具代表性的是 Faster R-CNN [8];另一種是一級檢測器,如YOLO [9]、SSD [10]。

級檢測器具有較高的定位和物體識別精度,一級檢測器具有較高的推理速度。兩階段檢測器的兩個階段可以通過 RoI(Region of Interest)池化層來劃分。例如,在 Faster R-CNN 中,第一階段稱為 RPN,一個區域提議網路,提議候選物件邊界框;第二階段,通過 RoIPool(RoI Pooling)操作從每個候選框提取特徵,用於以下分類和邊界框迴歸任務 [11]。圖 1 (a) 顯示了兩級檢測器的基本架構。

此外,一級檢測器直接從輸入影象中提出預測框而無需區域提議步驟,因此它們具有時間效率並可用於實時裝置。圖 1 (b) 展示了一級檢測器的基本架構。

圖 1. (a) 展示了兩階段檢測器的基本架構,它由區域提議網路組成,將區域提議輸入分類器和迴歸器。(b) 顯示了一級檢測器的基本架構,它直接從輸入影象預測邊界框。黃色立方體是骨幹網路中具有相同解析度的一系列卷積層(稱為塊),由於一個塊後的下采樣操作,後面的立方體的尺寸逐漸變小。厚藍色立方體是一系列包含一個或多個卷積層的卷積層。扁平的藍色立方體展示了 RoI 池化層,它為相同大小的物件生成特徵圖。

  • 貢獻

本綜述側重於描述和分析基於深度學習的目標檢測任務。由於計算機視覺研究的快速發展,現有的調查總是涵蓋一系列一般物體檢測領域,但不包含最先進的方法,這些方法提供了一些新的解決方案和這些任務的新方向。

1)本文列出了最近提出的非常新穎的解決方案,不介紹基礎知識,以便讀者可以更輕鬆地看到該領域的前沿。 (2) 此外,與以往的物體檢測調查不同,本文系統、全面地回顧了基於深度學習的物體檢測方法,最重要的是最新的檢測解決方案和一系列重要的研究趨勢。(3)本綜述的特點是多方面的深入分析和討論,據我們所知,其中很多是該領域的第一次。

圖b目標檢測演算法發展流程(圖源網路,侵刪,非原文圖)

2.骨幹網路

骨幹網路是目標檢測任務的基本特徵提取器,目標檢測的主要任務是將影象作為輸入並輸出相應輸入影象的特徵圖。大多數用於檢測的主幹網路是用於分類任務的網路,這些任務連線最後的全連線層。例如,林等人[15] 新增或減少圖層或用特殊設計的圖層替換一些圖層。為了更好地滿足特定要求,一些工作[9] [16] 利用新設計的主幹進行特徵提取。

對於精度與效率的不同要求,人們可以選擇更深且連線密集的主幹網路,如 ResNet [11]、ResNeXt [17]、AmoebaNet [18] 或輕量級主幹網路,如 MobileNet [19]、ShuffleNet [20]、SqueezeNet [21]、Xception [22]、MobileNetV2 [23]。

當應用於移動裝置時,輕量級骨幹網可以滿足要求。王等人[24] 通過將 PeleeNet 與 SSD [10] 相結合並優化架構以提高處理速度,提出了一種新穎的實時物件檢測系統。為了滿足高精度和更準確的應用需求,需要複雜的主幹網路。另一方面,像視訊或網路攝像頭這樣的實時獲取不僅需要高處理速度,還需要高準確度 [9],這需要精心設計的主幹網以適應檢測架構並在速度和準確度之間進行權衡。

圖c目標檢測演算法骨幹網路(圖源網路,侵刪,非原文圖)

為了探索更具競爭力的檢測精度,採用更深且連線密集的主幹來代替較淺且連線稀疏的對應物。He 等人[11] 利用 ResNet [25] 而不是 VGG [26] 來捕獲在 Faster R-CNN [8] 中採用的豐富特徵,由於其高容量,可以進一步提高精度。

新的高效能分類網路可以提高精度並降低目標檢測任務的複雜性。這是進一步提高網路效能的有效方法,因為骨幹網路充當特徵提取器。眾所周知,特徵的好壞決定了網路效能的上限,因此是需要進一步探索的重要步驟。更多細節請參考[27]。

願我此生不負,願我終將成人