1. 程式人生 > 實用技巧 >Range RCNN論文閱讀-條理性解析

Range RCNN論文閱讀-條理性解析

Range RCNN: Towards Fast and Accurate 3D Object Detection with Range Image Representation論文閱讀解析

論文連結:https://arxiv.org/pdf/2009.00206.pdf

1.簡介

近年來,三維目標檢測在許多領域越來越受關注,不同於二維目標檢測,三維目標檢測因為增加了深度資訊的要求,仍存在較大的挑戰,基於點雲的方法可以較好的解決這一點,但點雲的不規則性和稀疏性本身,為點雲的資料處理帶來了挑戰。
現有的方法一般分為兩類:基於網格的方法和基於點的方法,基於網格又可以分為基於3D體素以及2D鳥瞰圖。

基於網格的方法會丟失點雲資訊,基於點的方法計算量大,總的來說,這兩種方法都不能在高效計算的情況下獲得所有的原始資訊來實現特徵提取。

範圍影象是鐳射雷達的原始表示形式,它保留了所有原始資訊,不同於常用的兩種方法,範圍影象是密集和緊湊的,可以很好的被2D卷積利用並且避免因為稀疏性帶來的接收場不確定性問題。
但範圍影象有兩個明顯的缺點,所以一般不會使用這種表示形式。
1)大的尺度變化不利於決定錨框尺寸
2)不同目標存在遮擋
(2D鳥瞰圖不存在這兩個問題)

因此,本文基於範圍影象提出一種新穎高效的三維目標檢測框架命名為RangeRCNN,提出PV-PV-BEV(Range View to Point View to Bird’s Eye View)模組將特徵從範圍影象轉換為鳥瞰圖
(這一點是論文核心亮點,不同於直接投影為鳥瞰圖,先通過範圍影象提取特徵,避免了資訊丟失,得到特徵後,轉換為鳥瞰圖,避免了目標遮擋)

2.方法
整體結構圖
範圍影象經過編解碼提取特徵,然後將提取到的特徵根據範圍影象畫素點座標轉化為點再投影到鳥瞰圖上,經過RPN得到三維區域建議,並通過3D RoI 池化模組將其從三維拉伸到一維,輸入到全連線層進行分類迴歸。

A.範圍影象骨架網
KITTI資料集上只提供了點雲資料,因此需要將其轉化為範圍影象,公式為:
在這裡插入圖片描述
其中,(x,y,z)是點的三維座標,(u,v)是範圍影象內的畫素座標。
r是點的範圍,w,h是預設的範圍影象大小,f是雷達感測器的垂直視野。
對於每一個點,將其範圍、座標和密度編碼作為輸入。
範圍影象帶來了尺度變化問題,在不同的距離下,目標尺寸會受到不同的影響,為了更好適應不同尺度並且獲得一個更復雜的接收場,在殘差模組中增加了空洞卷積。

空洞卷積是在標準卷積的基礎上注入空洞,來增加感受野,通過膨脹率來控制卷積核間隔,下圖說明了空洞卷積和標準卷積的區別。

標準卷積
空洞卷積
編碼過程:
1)使用1x1卷積提取特徵
2)3個具有不同膨脹率的3x3卷積
3)通過1x1卷積將三個空洞卷積分支連線起來融合特徵
4)drouout、池化操作進行下采樣
解碼過程比較類似,只是換成雙線性插值進行上取樣
具體結構如下圖:
在這裡插入圖片描述

B.PV-PV-BEV
範圍影象表示比較適合用2D卷積提取特徵,但是因為大的尺度變化不利於錨框確定,一些目標還存在很嚴重的遮擋問題,因此,將特徵通過轉化為點雲形式並投影為鳥瞰圖來進行後續操作。

C.3D RoI 池化
基於鳥瞰圖,通過RPN網路生成3D建議,為了更好利用三維空間資訊,提出3D RoI池化,建議被分割為小的網格,不同網格具有清晰的空間關係,高度資訊可以被編碼到這些網格中。最後將其拉伸為一維,通過全連線層實現分類迴歸。具體網路結構如下圖:
在這裡插入圖片描述損失函式就是常規的兩階段方法設計,這裡就不再詳述。
最後,在KITTI資料集進行了驗證,精度基本達到了最高水平,證明了使用範圍影象作為點雲表示形式的可行性與潛力。
在這裡插入圖片描述