CVPR2020|3D-VID:基於LiDar Video資訊的3D目標檢測框架
阿新 • • 發佈:2020-04-19
作者:蔣天園 Date:2020-04-18 來源:3D-VID:基於LiDar Video資訊的3D目標檢測框架|CVPR2020Brief paper地址:https://arxiv.org/pdf/2004.01389.pdf code地址:https://github.com/yinjunbo/3DVID 這是一篇來自北理工和百度合作的文章,目前還未開源,只有專案地址,2020年3月份放置在arxiv上,已經被CVPR2020接收;從標題我們猜測該文采用的時空資訊將多幀的點雲資訊融合做3D目標檢測,目前的確是沒有研究是通過視訊流的方式做3D目標檢測,不過這也要求資料集是一些連續的幀才能使得這樣一個任務的完成,但是KITTI的確是沒有滿足這樣的要求,因此作者在Nuscence上進行的實驗。這是一個CVPR19年上的公佈的資料集,這裡先給出一張目前在公佈的nuscence的榜單,如下,這裡的榜一的文章目前將SECOND的程式碼重構,加入了更多SOTA的方法開源了新的3Ddetection base,即Det 3D專案,連結為:https://github.com/poodarchu/Det3D,而MEGV則是採用了多尺度檢測的head,規定了不同大小的物體的檢測採用不同的head,同時採用了一種資料增廣方式緩解了nuscence中的longtail問題
- 當前的基於LiDar輸入的目標檢測網路都是隻使用了單幀的資訊,都沒有使用連續點雲之間的時空資訊。所以本文作者提出了一種處理點雲序列的end2end的online的視訊檢測方法。
- 本文提出的模型由空間特徵編碼模組和時空特徵融合模組兩部分組成。這裡的空間特徵編碼模組——PMPNet(PillarMessage Passing Network)用於編碼獨立的每一幀的點雲特徵,該模組通過迭代訊息傳遞,自適應地從相鄰節點處為該pillarnode收集節點資訊,有效地擴大了該pillarnode的感受野。時空特徵融合模組則是採用的時空注意力結合GRU的設計(AST-GRU)來整合時空資訊,該模組通過一個attentivememory gate來加強傳統的ConvGRU。其中AST-GRU模組又包含了一個空間注意力模組(STA)和TTA模組(TemporalTransformer Attention ),使得AST-GRU可以注意到前景物體和配準動態物體。
- 在nuscence上得到了sota的效果
- point cloud video的定義點雲視訊是一系列點雲幀的集合,在資料集Nuscence中,採用的32線每一秒可以捕獲20幀的點雲的鐳射雷達。
- 單幀檢測方法的弊端如果採用單幀影象直接處理就受到單幀影象就必須受到單幀影象稀疏性過大的影響,再嚴重一點,距離和遮擋都會成為單幀檢測方法的重大阻礙。如下圖所示,最上一層的檢測經常處才能False-negative的結果,但是本文提出的online3D video 檢測方法就可以做到更好的效果。這是因為point cloud video具有更加豐富的物體特徵。 當前比較流行的一些單幀檢測方法有可分為voxel-based的voxelnet、second、pointpillars和point-based的pointrcnn等方法,在本文中,作者也是採用的這種Pillar劃分的方式提取特徵,但是這種方法只會關注區域性特徵。所以作者對此提出了graph-based的方法PMPnet
- 核心問題 (1)構建3D video 目標檢測的關鍵問題在於如何對連續的時空特徵資訊進行建模表示,本文中,作者提出了融合graph-based空間編碼特徵的模組並結合時空注意力感知模組,來捕獲視訊一致性。 (2)上文提到作者為了改變pillars特徵提取僅僅提取一個Pillar中的特徵的問題,自己設計了PMPnet,該網路把每一個非空的pillar當做圖的一個節點,通過mesh從旁邊節點融合特徵的方式來擴大感受野,因此PMPNet通過在K-NNgraph中採用迭代的方式可以深度挖掘不同pillar節點之間的相對關係,該網路是在同一幀的點雲中進行空間的特徵融合。 (3)上面的PMPnet僅僅在同一幀的空間中提取到感受野更多的特徵資訊,然後將這些單幀的特徵在作者設計的第二個網路結構AST-GRU中進行融合,ConvGRU這一篇ICLR16年的文章證實了在2Dvideo中ConvGRU是非常有效的,作者設計的AST-GRU則是把該工作通過一個注意力記憶體門機制來捕獲連續幀點雲之間的依賴關係來擴充套件到三維點雲中處理中。 (4)在俯檢視下,前景物體僅僅只佔一小部分割槽域,背景點佔據了大部分的區域,這會使得在迭代過程中,背景噪聲會越來越大,因此作者採用了空間注意力模組來緩解背景噪聲並強調前景物體。(5)更新memory時,舊的空間特徵和新的輸入之間存在沒配準的問題,如果是靜態物體,可以採用ego-pose資訊配準,但是具有很大運動幅度的動態物體則是不能的,為了解決這問題,作者採用了短暫注意力機制(TTA)模組,自適應的捕捉連續幀中的運動關係。
- 整體設計作者首先通過PMPNet模組自適應擴大感受野的提取每一幀的空間特徵,再將輸出的特徵序列送入AST-GRU模組。
- 1000個場景,每個場景20s,這些場景使用人類專家進行了仔細註釋
- 感測器安裝位置和採集的資料命名:
- 資料註釋:
- 數量一共有1000多個場景,其中700個提供為訓練,150個場景作為測試,大概是KITTI的7倍左右視訊中關鍵幀每隔0.5s標註,由10個非關鍵幀融合得到。資訊包含為,其中最後一個資訊是KITTI不含有的,表示離關鍵幀的時間從0~0.45.
- 對於關鍵幀,輸入場景大小設定為[−50,50] × [−50, 50] ×[−5, 3],Pillar的劃分為[0.5×0.5]。
- 點雲數量的輸入為16384,從原始的2w+的點雲中取樣得到,每個pillar中最多包含點雲數量為60
- 最初的輸入維度是5,在GNN中的維度變為64
- 最終在backbone中的fea map為100 × 100 × 384(和voxelnet一樣的兩層concat)