1. 程式人生 > >多模態(RGB-D)——MV3D

多模態(RGB-D)——MV3D

  • 《Multi-View 3D Object Detection Network for Autonomous Driving》 2017,Xiaozhi Chen, Huimin Ma et al. MV3D

在這篇文章,作者提出了一個多視角(Multi-View)的3D物體識別網路(MV3D),採用多模態的資料作為輸入和預測3D空間的目標。 1.網路結構: 在這裡插入圖片描述 使用RGB影象、雷達鳥瞰圖、雷達前檢視三種作為網路的輸入: 在這裡插入圖片描述 實現精確的汽車的識別和3D框迴歸。

2.Region based Fusion Network 本文提出了一個基於區域的融合網路,有效的結合特徵。 Three views:bird’s eye view(BV), front view (FV), and the image plane (RGB). 因為特徵從不同的視角/模態通常有不同的解析度,作者採用ROI pooling 為每一個模態獲得相同長度的特徵向量。 Deep Fusion:從不同的特徵去結合資訊,之前的工作通常使用early fusion或late fusion。作者採用了一種深度融合(deep fusion)的方法,分層的融合多視角的特徵。 Eg:一個L layers的網路結構

1)Early fusion結合特徵從多視角(模態)的輸入階段: 在這裡插入圖片描述 連線的方式可以是concatenation或summation 等等

2)Late fusion使用幾個子網路去獨立的學習特徵後在預測階段進行結合: 在這裡插入圖片描述 在這裡插入圖片描述 3)Deep fusion: 提升不同視角中間層更多的互動: 在這裡插入圖片描述 連線操作採用了element-wise mean。

3.Network Regularization: 作者採用了兩種方法去正則化region-based fusion network:drop-path training and auxiliary losses。 在這裡插入圖片描述 4.不同融合方法比較: 在這裡插入圖片描述 注: w/o為是否使用auxiliary loss

小結: 引入了Deep fusion策略,增加中間層不同模態特徵間的互動

注:博眾家之所長,叢集英之薈萃。