1. 程式人生 > 實用技巧 >MegDetv2 - COCO 2019/2020目標檢測、例項分割冠軍方案

MegDetv2 - COCO 2019/2020目標檢測、例項分割冠軍方案

https://arxiv.org/pdf/2010.02475.pdf
在這裡插入圖片描述

Abstract:

在此報告中,我們介紹了目標檢測/例項分割系統MegDetV2,該系統以two-pass方式工作,首先檢測例項,然後進行分割。 我們的基線檢測器主要基於一種新設計的RPN,稱為RPN ++。 在COCO-2019檢測/例項細分test-dev資料集上,我們的系統達到61.0 / 53.1 mAP,比我們2018年的獲勝結果分別高出5.0 / 4.2。 我們在2019年和2020年COCO挑戰賽中取得了最佳成績。

Two-Pass Pipeline:

在這裡插入圖片描述
訓練的時候,分別訓練FPN檢測器和Mask-RCNN 。測試的時候,將從FPN檢測器提取的邊界框輸入到Mask-RCNN的分割head中,以生成最終結果。 以這種分而治之的方式,很容易利用來自不同來源的訓練資料並管理非常大規模的模型訓練。

Detection:

1.Methods:

在這裡插入圖片描述

本文使用FPN、MASK RCNN、Cascade RCNN,使用resnet50作為基準特徵提取器。其中使用了上表中的tricks。

A. RPN++

其中包含了High-IoU proposal sampling和Class aware sampling兩種取樣方式。

High-IoU proposal sampling:
在這裡插入圖片描述
RPN中已經存在許多高質量的proposals,通過NMS對其進行過濾。 而不是使用RPN分數來確定proposals的好壞。這樣無法有效利用它們,本文提出使用proposal與gt的iou作為質量標準 放寬了NMS IoU閾值,以保留更多高質量的proposals。 得益於高IoU取樣器,甚至可以直接學習具有更高的IoU臨界閾值0.7的R-CNN,它可以將FPN顯著提高2.5(表2中的38.8對36.3)。 這種方式對於級聯R-CNN也是有幫助的,通過新增額外的R-CNN頭和0.7 IoU閾值,這將結果進一步提高到40.7。 注意,與普通級聯R-CNN相比,它具有更出色的效能(表2中的40.7 vs 40.2),甚至減少了計算量。

Class aware sampling:
在這裡插入圖片描述

以往對於RPN生成的proposals,對於不同類別使用相同的iou閾值。本文對應不同類別動態設定閾值。具體做法是:首先計算所有類別中有多少個proposals與gt框的iou高於0.5 的比率α。然後根據α,對每個類別進行proposals的取樣。本文還為RPN anchors設計了另一個目標匹配規則。 每個gt框將被迫匹配一組anchor boxes,例如 每個gt框的前35個anchors點。 這些更改使FPN改善了1.3(表3中)

B. Strong-Baseline for Object Detection

在上面tricks的基礎上,本文還採用 “Deformable Network v2 with pooling” [14], “Stacking 4 Convolutions for location branch”.的技術。

Deformable Convolution and Pooling:
在Deformable ConvNets v2之後,作者在ResNet階段-{3,4,5}中的每個瓶頸3×3卷積中添加了transformable-conv。 產生2.6(38.9 vs 36.3)的改進。 像可變形ConvNets一樣,進一步用可變形RoI-Align代替RoI Align操作。 結果提高了1.1(40.0 vs 38.9)。

Stacking 4 Convolutions for location branch:
對於迴歸分支而言,使用4個堆疊卷積來更好地利用空間資訊進行定位任務而。 它有效地將結果提高了0.7(40.8對40.1)點。

Feature Pyramid with deformable convolution:
將FPN中的橫向3×3卷積更改為可變形的3×3卷積。 通過簡單的修改,這可以帶來0.3(41.1 vs 40.8)的改進。

2.COCO 2019 Detection Road-Map:

在這裡插入圖片描述
最後,為了獲得更好的COCO挑戰結果,我們採用了另外3個強大的主幹來提取影象特徵。 包含SENet-154 ,Shuffle V2 和ResNext 。

1.ShuffleNet V2 ->5.2。 注意,為加快實驗速度,作者在訓練較大的骨幹網時使用64個GPU(2個影象/ gpu)

2.SoftNMS ->0.7

3.syncbn->0.9

4.multi-scale training->0.9,具體地,通過從400到1400範圍內的均勻取樣來確定影象的短尺寸,最大大小限制為1400

5.Objects365預訓練->2.3

6.大尺度訓練->0.9,較大的尺寸範圍600-1600,較長邊緣的最大尺寸限制為1867

7.進一步延長了多尺度訓練的時間,涉及更大的RoI作為上下文,並對R-CNN的分類評分進行了歸一化->1

8.TTA:->1.6,多尺度測試{600, 800, 1000, 1200, 1400}+水平翻轉

9.ensemble