1. 程式人生 > >Visual simultaneous localization and mapping: a survey 論文解析(全)

Visual simultaneous localization and mapping: a survey 論文解析(全)

核心 得到 均值 選擇 人物 三種 質量 數據 旋轉

當激光或聲納等距離傳感器被用來構建小的靜態環境的二維地圖時,SLAM的問題被認為是解決的。然而,對於動態,復雜和大規模的環境,使用視覺作為唯一的外部傳感器,SLAM是一個活躍的研究領域。

第一部分是簡介

移動機器人的自主導航問題分為三個主要方面:定位,建圖和路徑規劃。

    定位包括以確切的方式確定機器人在環境中的當前姿態。

    建圖將環境的部分觀測結果整合到一個統一的模型中。

    路徑規劃確定了地圖中通過環境進行導航的最佳路線。

最初,定位和建圖是獨立研究的,後來認識到它們是依賴的。在外部環境中,在動態環境中,在顯著特征太多或很少的環境中,在大規模環境中,在攝像機的不穩定移動期間以及部分或完全遮擋傳感器發生時,許多視覺SLAM系統會失敗。

第二部分介紹了SLAM中的傳感器

傳感器能夠感知並獲得來自周圍世界的元素的測量結果。分為外部傳感器和本體感應傳感器。

在外部傳感器中,例如:聲納,射程激光,照相機和全球定位系統(GPS)

缺點:嘈雜的,範圍能力有限,激光傳感器和聲納在高度混亂的環境中或在識別物體方面不適用,昂貴,沈重,由大件設備組成,使得它們難以用於機載機器人或類人機器人。GPS傳感器在狹窄的街道(城市峽谷),水下,其他星球上效果不佳,有時在室內不可用。

優點:激光傳感器和聲納允許精確和非常密集的環境結構信息。

本體感應傳感器允許實體獲得速度,位置變化和加速度等測量結果。

特點:固有的噪聲,它們不能夠一直準確估計實體的位置,因為錯誤是累積的。

第三部分單目SLAM的缺點

許多視覺SLAM系統在探索環境時(或者在視覺復雜的環境中完全失敗)遭受大量累積誤差,這導致對機器人位置的估計不一致以及完全不協調的地圖。 存在三個主要原因:

(1)首先,一般認為攝像機運動平緩,並且顯著特征的外觀會一致,但總的來說這是不正確的。上述假設與顯著特征檢測器的選擇以及使用的匹配技術高度相關。由於傳感器的快速移動(例如,由於振動或快速方向改變),當拍攝具有小紋理的圖像或由於傳感器的快速移動而模糊時,這引起照相機位置的不準確。在一定程度上緩解這個問題的一種方法是使用關鍵幀或者分析實時視覺追蹤問題。

(2)其次,大多數研究者假定探索的環境是靜止的,只包含靜態的和剛性的元素;大部分環境都包含運動中的人物和物體。 如果不考慮這一點,移動的元素將會引起錯誤的匹配,從而在整個系統中產生不可預知的錯誤。

(3)最後,世界在視覺上是重復的。 有很多類似的紋理,比如重復建築元素,葉子和磚或石頭的墻壁。 在城市戶外環境中也會出現一些物體,如交通信號。 這使得很難識別以前探索過的地區,也難以在大面積的土地上進行SLAM。

第四部分,描述了可以被提取的顯著特征的類型以及用於實現對圖像可能遭受的各種變換的不變性的描述符。

顯著特征:描述的是(二維)圖像上的區域。
路標:是由3D位置和外觀信息描述的現實世界中的一個地區。

最容易定位的顯著特征是由人造路標產生的特征。這些路標是故意添加到環境中的,目的在於作為導航的輔助。

一個高質量的特征具有以下特征:它必須是易於提取,精確的,並且對旋轉,平移,縮放和光線變化不變。

顯著特征提取過程由兩個階段組成:檢測和描述。

檢測包括處理圖像以獲得大量顯著的元素。

描述在於基於圖像中的視覺外觀來構建特征向量,描述符對位置和方向變化的不變性將允許改進圖像匹配和數據融合過程的效率

有大量的顯著特征檢測器,如:SIFT(尺度不變特征變換):充分考慮了在圖像的變換過程中出現的光照,尺度,旋轉變化,但是計算量很大,普通電腦的CPU無法實時的計算SIFT特征。需要使用GPU。

FAST特征沒有描述子,計算很快。ORB特征點是目前的這種方案,改進了FAST檢測子不具有方向性的問題,並采用了速度極快的二進制描述子BRIEF,使整個圖像特征提取的環節速度加快了。

選擇要使用的特征的類型在很大程度上取決於機器人將要工作的環境。

第五部分:涉及圖像匹配和數據關聯問題。

特征匹配:確定當前看到的路標與之前看到的路標之間的對應關系。通過圖像與圖像、圖像與地圖之間的描述子進行準確匹配,我們可以為後續的姿態估計,優化等操作減輕大量負擔。

圖像的特征匹配解決了SLAM 中的數據關聯問題。匹配技術可以分為兩類:短基線和長基線。

基線是分隔兩個照相機的光學中心(用於捕獲一對圖像)的線段。

對於短基線的對應關系,重要的是要考慮區域的尺寸以及搜索區域的尺寸,否則會出現錯誤。短基線的缺點在於計算量大並且對噪聲非常敏感,例如對圖像坐標的錯誤度量將導致不同視角之間距離變小。 但是,可以通過視頻序列對相應的特征進行精確的跟蹤。

使用長基線時,圖像在尺寸或者視角方面呈現出較大的變化,這導致圖像中的一個點移動到另一圖像中的任何位置。這會產生一個困難的關聯問題。一個點鄰域的點被視點和光照的變化所扭曲,並且相關性措施不能得到好的結果。特征匹配的最簡單的辦法是“暴力匹配”(對任意兩幅圖像都做一遍特征匹配)根據正確匹配的數量,確定哪兩幅圖像存在關聯。顯然這種思路比較粗燥,缺點顯而易見。

對於回環檢測有兩種思路:A、基於裏程計的幾何關系,無法在累積誤差較大時工作。B、基於外觀:僅根據兩幅圖像之間的相似性確定回環檢測關系。擺脫了累積誤差,成為了現在的主流做法。

在基於外觀的回環檢測算法中,核心問題是:如何計算圖像間的相似性。圖像能夠表示成矩陣,矩陣直接相減的準確率和召回率很差,可能出現大量的“假正”和“假負”的情況。所以針對某種特定的算法,我們統計它在某個數據集上的TP,TN,FP,FN的次數,然後計算準確率和召回率。在回環檢測中,更傾向於把參數設置更嚴格一些,或者在檢測之後加上回環檢測的步驟。

第六部分詳細回顧了解決視覺SLAM問題的不同方法,並討論了每個方法的弱點和長處。

解決視覺SLAM問題的技術可以分為三類:

(a)基於濾波的經典模型

(b)采用增量方式運用結構動力學的技術

(c)仿生技術

基於濾波的經典模型,其中最經典的就是Mono SLAM,以擴展卡爾曼為後端,追蹤前端十分稀疏的特征點,以相機的當前狀態和所有路標點為狀態量,更新其均值和方差。

缺點:應用場景窄,路標數量有限,稀疏特征點容易丟失。現在對它的開發已經停止,有更先進的理論和編程工具。

采用增量方式運用結構動力學的技術:運動構圖能夠從一系列圖像中計算場景的3D結構和攝像頭位置。SfM算法通過在當前幀中提取顯著特征匹配並進行非線性優化,來減少重映射誤差。SfM對攝像頭的定位精度高,但是不一定能產生相容地圖。PTAM基於關鍵幀,把關鍵幀串起來,然後優化其軌跡和地圖,實現了跟蹤與建圖過程的並行化,

第七部分:描述被觀察世界的不同方式。

地圖分為度量地圖拓撲地圖

度量地圖強調精確地表示地圖中物體的位置關系,通常分為稀疏與稠密地圖

稀疏地圖是由路標組成的地圖,不是路標的部分可以忽略掉。適用於定位。

稠密地圖著重於建模所有看到的東西,適用於導航。稠密地圖通常是按著某種分辨率,由許多小塊組成。對於二維地圖是有許多小格子,對於三維地圖是有許多小方塊。每個小塊有:占據,空閑,未知三種狀態表達該格是否有物體。缺點:存儲消耗大量空間,大規模度量地圖有時會出現一致性問題。

拓撲地圖:強調地圖元素之間的關系,由節點和邊組成,只考慮節點之間的連通性。缺點:不適用於表達具有復雜結構的地圖。如何對於地圖進行分割形成節點和邊,又如何使用拓撲地圖進行導航和路徑規劃是有待研究的問題。

Visual simultaneous localization and mapping: a survey 論文解析(全)