在第一部分中,將介紹Lidar SLAM,包括Lidar感測器,開源Lidar SLAM系統,Lidar中的深度學習以及挑戰和未來。

第二部分重點介紹了Visual SLAM,包括相機感測器,不同稠密SLAM的開源視覺SLAM系統。





論文[2][3][4]是比較早期對VIO進行的一些研究。[5][6]給出了視覺慣導里程計的數學證明。而論文[7]則使用捆集約束演算法對VIO進行穩健初始化。特別是tango[8]、Dyson 360 Eye和hololens[9]可以算的上是VIO真正的產品,得到了很好的反饋。除此之外,蘋果的ARkit(filterbase)、谷歌的ARcore(filterbase)、uSens的Insideout都是VIO技術。下面就介紹一些開源VIO系統[10]:


•MSCKF:(緊耦合,基於濾波的方法)為Google Tango所採用,基於擴充套件Kalman濾波器[12]。類似的工作有MSCKF-VIO[13],並且程式碼開源了。



•VINS:VINS Mono(緊密耦合,基於優化的方法),論文[16]是單目視覺慣導的實時SLAM框架。開原始碼執行在Linux上,並集成了ROS。

VINS Mobile[17][18]是一款執行在相容iOS裝置上的實時單目視覺慣性里程計。此外,VINS Fusion支援多種視覺慣性感測器型別(GPS、單攝像頭+IMU、立體聲攝像頭+IMU,甚至僅立體攝像頭)。它具有位置校準、時間對齊和閉環檢測等模組。


Maplab: :(緊密耦合,基於優化的方法)是一個開放的、面向研究的視覺慣性SLAM框架,用C++編寫,支援建立和處理多種SLAM方案。一方面,maplab可以看作是一個現成的視覺慣性構圖和定位系統。另一方面,maplab為研究社群提供了一系列多視窗的SLAM工具,包括地圖合併、視覺慣性批處理優化、環路閉合、三維密集重建[20]。





基於單目視覺的 Pop-up SLAM [23]提出了實時單目平面SLAM,以證明 在低紋理環境下,語義理解可以提高狀態估計和稠密重建的精度。







cube SLAM(Monocular)是一個基於立方體模型的三維目標檢測與SLAM系統[30]。它實現了目標級的場景構建、定位和動態目標跟蹤。基於魚眼相機的SLAM方法介紹

論文[31]將cubeSLAM和Pop-up SLAM相結合,使地圖比基於特徵點的SLAM更稠密且準確的語義資訊。公眾號歷史文章有介紹。


SLAM++[32]展示了一種新的面向物件的3D SLAM方案的主要優點,它充分利用了先驗知識的迴圈,即許多重複的場景、特定物件和結構構成。





3DMV(RGB D)[36]結合RGB顏色和幾何資訊對RGB-D資訊進行三維語義分割。


scan complete[38]是一種資料驅動的方法,它以場景的不完全三維掃描作為輸入,並預測一個完整的三維模型以及每個體素的語義標籤。












MaskFusion是一個基於Mask R-CNN的實時、物件感知、語義和動態RGB-D SLAM系統。該系統即使在連續的、自運動中,也能用語義資訊對物體進行標註。

Detect SLAM[52]將SLAM與基於深度神經網路的目標檢測器結合起來,使這兩個功能在未知和動態環境中相互輔助。

DynaSLAM[53]是一個支援單目、立體和RGB-D相機在動態環境下輔助靜態地圖的SLAM系統。StaticFusion[54]提出了一種在動態環境中檢測運動目標並同時重建背景結構的魯棒密集RGB-D SLAM方法。









