曠視科技提出IoU-Net,讓目標檢測用上定位置信度
全球計算機視覺三大頂會之一 ECCV 2018 (European Conference on Computer Vision)即將於9月8 -14日在德國慕尼黑拉開帷幕。屆時,曠視首席科學家孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。而在此之前,曠視科技將陸續推出 ECCV 2018 接收論文系列解讀。本文是第 7 篇解讀,一種讓目標檢測用上定位置信度的新方法——IoU-Net。往期解讀請見文末。
論文名稱:《Acquisition of Localization Confidence for Accurate Object Detection》
目錄
- 導語
- 背景
- 設計思想
- 目標定位
- 分類&定位準確度不匹配
- 非單調邊界框迴歸
- IoU-Net
- 學習預測 IoU
- IoU-guided NMS
- 邊界框迴歸作為優化過程
- 聯合訓練
- 實驗
- IoU-guided NMS
- 基於優化的邊界框修正
- 聯合優化
- 結論
- 參考文獻
- 往期解讀
導語
現代基於 CNN 的目標檢測器依靠邊界框迴歸和非極大抑制(NMS)來定位目標,其對類別標籤的預測概率可以天然反映每個框的分類置信度,然而卻缺失了框的定位置信度。這使得原本定位準確的邊界框會在迭代迴歸的過程中偏離目標,又或甚至在 NMS 過程中受到抑制。為此,曠視科技提出 IoU-Net,可學習預測每個檢測得到的邊界框和與之匹配的目標之間的 IoU 作為該框的定位置信度。利用這種定位置信度,檢測器能確保定位更準確的邊界框在 NMS 過程中被保留下來,從而改進 NMS 過程。此外,將預測得到的 IoU 作為優化目標,一種基於優化的邊界框修正方法也同時被提出。目標檢測技術(計算機視覺的基石之一)的這一底層的原創性突破,不僅將優化上層技術的發展,還將為技術落地帶來有益影響,比如視訊智慧理解、智慧地產和零售以及智慧相機等,推動數字中國、城市大腦、無人超市等產業的進步。
背景
目標檢測是很多下游視覺應用的前提基礎,比如例項分割、人體骨架繪製、人臉識別和高階目標推理。它結合了目標分類和定位兩個任務。現代大多數目標檢測器的框架是 two-stage,其中目標檢測被定義為一個多工學習問題:1)區分前景物體框與背景併為它們分配適當的類別標籤;2)迴歸一組係數使得最大化檢測框和目標框之間的交併比(IoU)或其它指標。最後,通過一個 NMS 過程移除冗餘的邊界框(對同一目標的重複檢測)。
在這樣的檢測流程中,分類和定位被用不同的方法解決。具體來說,給定一個提議框(proposal),每個類別標籤的概率可自然而然地用作該 proposal 的“分類置信度”,而邊界框迴歸模組卻只是預測了針對該 proposal 的變換系數,以擬合目標物體的位置。換而言之,這個流程缺失了“定位置信度”。定位置信度的缺失帶來了兩個缺點:
- 在抑制重複檢測時,由於定位置信度的缺失,分類分數通常被用作檢測框排名的指標。在圖 1(a) 中,研究者展示了一組案例,其中有更高分類置信度的檢測框卻與其對應的目標物體有更小的重疊。就像 Gresham 著名的 “劣幣驅逐良幣”理論一樣,分類置信度和定位準確度之間的不匹配可能導致定位更準確的邊界框在 NMS 過程中反被更不準確的邊界框抑制。
- 缺乏定位置信度使得被廣泛使用的邊界框迴歸方法缺少可解釋性或可預測性。舉個例子,之前的研究 [3] 報告了迭代式邊界框迴歸的非單調性。也就是說,如果多次應用邊界框迴歸,可能有損輸入邊界框的定位效果(見圖 1(b))。
圖 1:由缺乏定位置信度所造成的兩個缺點的圖示。
這些示例選自 MS-COCO minival。(a)分類置信度和定位準確度不對齊的示例。黃框表示真實目標框,紅框和綠框都是 FPN 所得到的檢測結果。定位置信度由研究者提出的 IoU-Net 計算得到。使用分類置信度作為排名指標,會導致定位更準確的邊界框(綠框)在傳統的 NMS 流程被錯誤地刪去。(b)在迭代式邊界框迴歸中非單調定位的示例。
設計思想
在這篇論文中,研究者引入了 IoU-Net,其能預測檢測到的邊界框和它們對應的真實目標框之間的 IoU,使得該網路能像其分類模組一樣,對檢測框的定位精確程度有所掌握。這種簡單的預測IoU值能為研究者提供前述問題的新解決方案:
- IoU 是定位準確度的一個天然標準。研究者可以使用預測得到的 IoU 替代分類置信度作為 NMS 中的排名依據。這種技術被稱為 IoU 引導式 NMS(IoU-guided NMS),可消除由誤導性的分類置信度所造成的抑制錯誤。
- 研究者提出了一種基於優化的邊界框修正流程,可與傳統的基於迴歸的邊界框修正方法分庭抗禮。在推理期間,預測得到的 IoU 可用作優化目標,也可作為定位置信度的可解釋性指示量。研究者提出的精準 RoI 池化層(Precise RoI Pooling layer)讓研究者可通過梯度上升求解 IoU 優化。研究者表明,相比於基於迴歸的方法,基於優化的邊界框修正方法在實驗中能實現定位準確度的單調提升。這種方法完全相容並可整合進各種不同的基於 CNN 的檢測器。
邊界框修正圖示:上行是傳統方法的結果,下行是本文提出方法的結果。
目標定位
本節探討了目標定位的兩個缺點:分類置信度與定位精確度之間的不匹配以及非單調邊界框迴歸。標準的 FPN 檢測器在 MS-COCO trainval35k 上被訓練以最為基線,並在 minival 上測試以供進一步研究。
分類&定位準確度不匹配
圖 2:邊界框與其對應目標框的 IoU 與分類/定位置信度之間的關係。
對那些與目標框的 IoU 高於 0.5 的檢測框,其 Pearson 相關係數為 (a) 0.217 和 (b) 0.617。(a)分類置信度表示了一個邊界框的類別,但不能被解讀成定位準確度。(b)為了解決這個問題,研究者提出了 IoU-Net 來預測每個檢測到的邊界框的定位置信度,即其與對應的目標框的 IoU。
圖3:經過 NMS 之後得到的正例邊界框的數量,根據它們與對應的目標框之間的 IoU 分組。
在傳統 NMS 中(藍色條形圖),定位準確的邊界框中有很大一部分會被錯誤抑制,這是由分類置信度和定位準確度之間的不匹配造成的,而 IoU-guided NMS(黃色條形圖)則能保留定位更準確的邊界框。
非單調邊界框迴歸
圖 4:基於優化的與基於迴歸的 BBox 優化。
如上圖所示,(a)表示在 FPN 中比較。當迭代式地應用迴歸時,檢測結果的 AP(平均精度)首先會提升,但會在之後的迭代中快速降低。(b)表示在 Cascade R-CNN 中比較。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 個迴歸階段。在多輪迴歸之後,AP 稍有下降,而基於優化的方法則進一步將 AP 提高了 0.8%。
IoU-Net
為了定量地分析 IoU 預測的有效性,研究者首先提出用於訓練 IoU 預測器的方法。接著分別展示瞭如何將 IoU 預測器用於 NMS 和邊界框修正的方法。最後,研究者將 IoU 預測器整合進了 FPN 等現有的目標檢測器中。
學習預測 IoU
圖 5:IoU-Net 的完整架構。
在上圖中,輸入影象首先輸入一個 FPN 骨幹網路。然後 IoU 預測器讀取這個 FPN 骨幹網路的輸出特徵。研究者用 PrRoI 池化層替代了 RoI 池化層。這個 IoU 預測器與 R-CNN 分支有相似的結果。虛線框內的模組能構成一個單獨的 IoU-Net。
IoU-guided NMS
演算法 1:IoU-guided NMS。
在這個演算法中,分類置信度和定位置信度是解開的(disentangled)。研究者使用定位置信度(預測得到的 IoU)來給所有被檢測到的邊界框排名,然後基於一個類似聚類的規則來更新分類置信度。
邊界框修正作為優化過程
演算法 2:基於優化的邊界框修正。
精準 RoI 池化(Precise RoI Pooling)。研究者引入了精準 RoI 池化(簡寫成:PrRoI 池化)來助力研究者的邊界框修正。其沒有任何座標量化,而且在邊界框座標上有連續梯度。給定 RoI/PrRoI 池化前的特徵圖 F(比如,來自 ResNet-50 中的 Conv4),設 wi,j 是該特徵圖上一個離散位置 (i,j) 處的特徵。使用雙線性插值,這個離散的特徵圖可以被視為在任意連續座標 (x,y) 處都是連續的:
其中,
是插值係數。然後將 RoI 的一個 bin 表示為
,其中 (x_1,y_1) 和 (x_2,y_2) 分別是左上角和右下角的連續座標。給定 bin 和特徵圖 F,研究者通過計算一個二階積分來執行池化(比如平均池化):
為更便於理解,研究者在圖 6 中可視化了 RoI 池化、RoI Align 和研究者的 PrRoI 池化:在傳統的 RoI 池化中,連續座標首先需要被量化(quantization),以計算該 bin 中啟用的和;為了消除量化誤差,在 RoI Align 中,會取樣該 bin 中 N=4 個連續點,表示成 (a_i,b_i),而池化就是在這些取樣的點上執行的。RoI Align 中的 N 是預定義的,而且不能根據 bin 的大小進行調整;與此不同,研究者提出的 PrRoI 池化是直接基於連續特徵圖計算二階積分。
圖 6:RoI 池化、RoI Align 和 PrRoI 池化的圖示。
聯合訓練
這種 IoU 預測器可整合到標準的 FPN 流程中,以進行端到端的訓練和推理。為了清楚說明,研究者將用於影象特徵提取的 CNN 架構稱為骨幹(backbone),將應用於各個 RoI 的模組稱為頭(head)。
如圖 5 所示,這個 IoU-Net 使用了 ResNet-FPN 作為骨幹網路,其架構是自上而下的,可構建特徵金字塔(feature pyramid)。FPN 能根據 RoI 的特徵的比例從這個特徵金字塔的不同層級提取這些 RoI 的特徵。其中原來的 RoI 池化層被換成了精準 RoI 池化層。至於該網路的頭,這個 IoU 預測器根據來自骨幹網路的同一視覺特徵而與 R-CNN 分支(包括分類和邊界框迴歸)並行工作。
實驗
研究者在有 80 個類別的 MS-COCO 檢測資料集上進行了實驗。具體來講,在 8 萬張訓練影象和 3.5 萬張驗證影象的並集(trainval35k)上訓練了模型,並在包含 5000 張驗證影象的集合(minival)上評估了模型。為驗證該方法,研究者與目標檢測器分開而訓練了一個獨立的 IoU-Net(沒有 R-CNN 模組)。IoU-guided NMS 和基於優化的邊界框修正被應用在了檢測結果上。
IoU-guided NMS
表 1 總結了不同 NMS 方法的表現。儘管 Soft-NMS 能保留更多邊界框(其中沒有真正的“抑制”),但 IoU-guided NMS 還能通過改善檢測到的邊界框的定位來提升結果。因此,在高 IoU 指標(比如 AP_90)上,IoU-guided NMS 顯著優於基準方法。
表 1:IoU 引導式 NMS 與其它 NMS 方法的比較。通過保留定位準確的邊界框,IoU-guided NMS 在具有高匹配IoU閾值的 AP(比如 AP_90)上的表現顯著更優。
圖 7:在匹配檢測到的邊界框與真實目標框的不同 IoU 閾值下,不同 NMS 方法的召回率曲線。
研究者提供了 No-NMS(不抑制邊界框)作為召回率曲線的上限。研究者提出的 IoU-NMS 有更高的召回率,並且在高 IoU 閾值(比如 0.8)下能有效收窄與上限的差距。
基於優化的邊界框修正
研究者提出的基於優化的邊界框修正與大多數基於 CNN 的目標檢測器都相容,如表 2 所示。將這種邊界框修正方法應用在原來的使用單獨 IoU-Net 的流程之後還能通過更準確地定位目標而進一步提升表現。即使是對有三級邊界框迴歸運算的 Cascade R-CNN,這種改進方法能進一步將 AP_90 提升 2.8%,將整體 AP 提升 0.8%。
表 2:基於優化的邊界框修正能進一步提升多種基於 CNN 的目標檢測器的表現。
聯合優化
IoU-Net 可與目標檢測框架一起並行地端到端優化。研究者發現,將 IoU 預測器新增到網路中有助於網路學習更具判別性的特徵,這能分別將 ResNet50-FPN 和 ResNet101-FPN 的整體 AP 提升 0.6% 和 0.4%。IoU-guided NMS 和邊界框修正還能進一步提升表現。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基準為 38.5%,提升了 2.1%。表 4 給出了推理速度,表明 IoU-Net 可在計算成本承受範圍之內實現檢測水平的提升。
表 3:在 MS-COCO 上的最終實驗結果。IoU-Net 表示嵌入IoU預測器的 ResNet-FPN。在這個 FPN 基準上,研究者實現了約 2% 的 AP 提升。
表 4:多種目標檢測器在單個 TITAN X GPU 上得到的推理速度。這些模型都有一樣的骨幹網路 ResNet50-FPN。輸入解析度為 1200x800。所有超引數設定相同。
結論
本文提出一種用於準確目標定位的全新網路架構 IoU-Net。通過學習預測與對應真實目標的 IoU,IoU-Net 可檢測到的邊界框的“定位置信度”,實現一種 IoU-guided NMS 流程,從而防止定位更準確的邊界框被抑制。IoU-Net 很直觀,可輕鬆整合到多種不同的檢測模型中,大幅提升定位準確度。MS-COCO 實驗結果表明了該方法的有效性和實際應用潛力。
從學術研究的角度,本文指出現代檢測流程中存在分類置信度和定位置信度不匹配的問題。更進一步,研究者將邊界框修正問題重定義為一個全新的優化問題,並提出優於基於迴歸方法的解決方案。研究者希望這些新視角可以啟迪未來的目標檢測工作。
參考文獻
- Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving intohigh qualityobject detection. arXiv preprint arXiv:1712.00726 (2017)
- Lin, T.Y., Doll ́ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)
- He,K.,Gkioxari,G.,Dolla ́r,P.,Girshick,R.:Maskr-cnn.In:TheIEEEInternationalConference on Computer Vision (ICCV) (2017)
- Lin, T.Y., Doll ́ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)
- Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time objectdetec- tionwith region proposal networks. In: Advances in neural information processing systems. pp. 91–99 (2015)
- Wang, X., Xiao, T., Jiang, Y., Shao, S., Sun, J., Shen, C.: Repulsion loss: Detecting pedestrians in a crowd. arXiv preprint arXiv:1711.07752 (2017)