Constructing Category-Specific Models for Monocular Object-SLAM(閱讀筆記)
阿新 • • 發佈:2018-12-13
Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要 摘要 - 我們提出了一種用單目相機進行實時面向物件SLAM的新範例。與先前依賴於物件級模型的方法相反,我們從CAD集合構建類別級模型,這些模型現在可廣泛使用。為了減少對大量標記資料的需求,我們開發了一種渲染途徑,可以從有限數量的手動標記資料中合成大型資料集。使用這樣合成的資料,我們學習3D中物件變形的類別級模型,以及2D中的判別物件特徵。這些類別模型與例項無關,有助於設計物件標誌 ,可以納入通用單眼SLAM框架的觀察結果。在典型的物體-SLAM方法通常僅解決物體和相機姿勢的情況下,我們還可以即時估計物體形狀,允許來自該類別的各種物體存在於場景中。此外,由於我們的2D物件特徵是有區別地學習的,因此所提出的物件-SLAM系統在幾種情況下成功 由於功能或視差不足導致基於稀疏特徵的單眼SLAM失敗。此外,建議的類別模型有助於物件例項檢索,對增強現實(AR)應用程式很有用。我們在多個具有挑戰性的真實場景中評估所提出的框架,並且據我們所知,展示獨立於例項的單眼物件-SLAM系統的第一個結果以及它對基於特徵的SLAM方法的好處 2 引言
- A object-SLAM 隨著SLAM系統的最新進展和隨後的穩定,社群一直致力於將物件納入SLAM框架。對此,已經提出了面向物件SLAM的一些最新方法[3] - [5],[7] - [9]。 這些成果大多依賴於RGBD或立體聲感測器的深度資訊[4] - [7]。在[4],[6]中,假設物件的例項級模型是先驗已知的。在[4]中,將實時3D物件檢測演算法應用於RGB-D影象流,並且這些物件與姿勢圖優化方案中的測距資訊一起融合。類似地在[6]中,提出了一種用於多機器人物件-SLAM的框架。同樣,每個機器人都配備了RGB-D感測器,並且可以先驗地獲得物體模型。 還有另一種範例,其中沒有先驗可用的例項級模型。在[5]中,在因子圖框架中聯合求解關聯和物件姿勢,使用RGB-D相機的資料。在單眼物件SLAM / SfM方法中,[8],[9]屬於這種正規化。在這種方法中,物件被建模為邊界框[7],[9]或橢圓體[8]。 因此,我們的方法屬於第三種正規化,假設是類別模型,而不是例項級模型。
- B object-category model 在過去的幾年中,物件類模型已經應用於單眼視覺中的幾個問題。 在[10] - [12]中,採用類別級模型從單個影象中獲得物件重建。 這些方法表明,單眼成像過程中的資訊損失可以通過整合屬於特定類別的物體形狀的先驗資訊進行補償。 我們使用這些類別模型並利用它們來設計可以輕鬆合併到單眼SLAM中的物件觀察因子,並且還可以從類別中對多個例項進行概括,而無需對類別中的所有可能例項進行建模。
- C keypoint localization using CNNS 卷積神經網路(CNNs)是目標檢測[22],[23]和物件關鍵點定位[15] - [17],[24]最近進展的驅動因素。 當在GPU上執行時,這些CNN能夠處理延遲大約100-300毫秒的影象幀,並形成我們管道的重要元件。
- D Render Pipelines for Data Synthesis(對合成資料進行渲染的管道) 隨著[25]等CAD模型集的出現,3D資料現已大量湧現。 在[18]中,提出了在手動註釋的真實影象上使用渲染引擎的合成影象作為訓練的替代方案。 被訓練用於對渲染資料進行物件視點預測任務的模型(隨後在包括真實資料的較小資料集上進行微調)被證明優於僅在(較大的)真實資料集上訓練的模型。 我們的實驗也證實了這一事實物件關鍵點預測的任務。 我們基於這裡描述的幾個元件構建,但是我們設計輸出以建立物件因子,這些因子可以增加到使用單眼SLAM方法構建的因子圖[13]。 整個管道總結在圖2中,並在隨後的章節中進行了解釋。