ICCV研討會:實時SLAM的未來以及深度學習與SLAM的比較
轉載宣告:本文轉載自 金木炎 的部落格http://blog.csdn.net/qq_18661939/article/details/51919329,僅供個人學習。感謝博主的無私分享,如有侵權,敬請告知。
這篇短文寫的很好,我把它copy到這裡供大家學習
上一屆「國際計算機視覺大會(ICCV:International Conference of Computer Vision )」成為了深度學習(Deep Learning)技術的主場,但在我們宣佈卷積神經網路(ConvNet)的全面勝利之前,讓我們先看看計算機視覺的「非學習(non-learning)」幾何方面的進展如何。同步定位與地圖構建(SLAM: Simultaneous Localization and Mapping )可以說是機器人學領域最重要的
這篇文章包含了對 SLAM 的簡要介紹、對研討會上發生的事情的詳細描述(全部七個演講的總結)和會議結尾處的「以深度學習為中心的小組討論」中的關鍵資訊。
第一部分:為什麼 SLAM 很重要?
視覺 SLAM 演算法可以實時構建世界的 3D 地圖,並同時追蹤攝像頭(手持式或增強現實裝置上的頭戴式或安裝在機器人上)的位置和方向。SLAM 是卷積神經網路和深度學習的補充:SLAM 關注於幾何問題而深度學習是感知(識別)問題的大師。如果你想要一個能走到你的冰箱面前而不撞到牆壁的機器人,那就使用 SLAM。如果你想要一個能識別冰箱中的物品的機器人,那就使用卷積神經網路。
SfM/SLAM 基本原理:一個場景的 3D 結構是根據點觀察和固有的攝像頭引數,從攝像頭的估計的運動中計算出來的
SLAM 是 SfM(運動恢復結構:Structure from Motion)的一種實時版本。視覺 SLAM 或基於視覺的 SLAM 是 SLAM 的一種僅使用攝像頭的變體,放棄了昂貴的鐳射感測器和慣性測量單元(IMU)。單眼 SLAM(Monocular SLAM)僅使用單個攝像頭,而非單眼 SLAM(non-monocular SLAM)通常使用一個預校準的固定基線的立體相機套件。SLAM 是計算機視覺領域所謂的「幾何方法(Geometric Method)」最好案例。事實上,卡內基梅隆大學(CMU)的機器人研究所將研究生水平的計算機視覺課程分成了一個「基於學習的視覺方法」和一個單獨的「基於幾何的視覺方法」課程。
1.運動恢復結構 vs 視覺 SLAM
運動恢復結構(SfM)和 SLAM 所解決的問題非常相似,但 SfM 傳統上是以離線形式進行的,而 SLAM 則已經慢慢走向了低功耗/實時/單 RGB 相機的執行模式。今天許多運動恢復結構方面的專家都在為世界上一些最大的科技公司,幫助打造更好的地圖。如果沒有關於多檢視幾何(multiple-view geometry)、SfM 和 SLAM 的豐富知識,像谷歌地圖這種成功的地圖產品根本就不可能出現。典型的 SfM 問題遵循:給定一個單個室外結構(如大劇場/大體育館)的大型照片集合,構建該結構的 3D 模型並確定每個相機的姿勢。這個照片集合以離線形式處理,而且大型結構重建所需時間從幾小時到幾天不等。
這裡給出一些流行的 SfM 相關的軟體庫:
Bundler:一個開源的運動恢復結構工具包
Libceres:一個非線性最小二乘極小化工具(對束調整(bundle adjustment)問題很有用)
Andrew Zisserman 的多檢視幾何 MATLAB 函式
2.視覺 SLAM vs 自動駕駛
研討會的組織者之一 Andrew Davison 表示,儘管自動駕駛汽車是 SLAM 最重要的應用之一,但用於自動化載具的 SLAM 應該有其自己的研究軌道。(而且正如我們所見,研討會的展示者中沒有一個談到了自動駕駛汽車。)在接下來的許多年裡,獨立於任何一個「聖盃級」的應用而繼續在研究的角度上研究 SLAM 是有意義的。儘管在自動化載具方面存在著太多的系統級細節和技巧,但研究級的 SLAM 系統所需的不過是一個網路攝像頭、演算法知識和一點辛勞而已。視覺 SLAM 作為一個研究課題對數以千計的博士生的早期階段要友好得多,他們將首先需要好幾年的使用 SLAM 的實驗室經驗,然後才能開始考慮無人駕駛汽車等昂貴的機器人平臺。
第二部分:實時 SLAM 的未來
現在是時候正式總結和評論「實時 SLAM 的未來」研討會上的演講了。Andrew Davison 以一個名叫「基於視覺的 SALM 的十五年」的精彩歷史概述開篇,他的幻燈片中還有一個介紹機器人學課程的好內容。
你也許不知道 Andrew 是誰,他是倫敦帝國學院獨一無二的 Andrew Davison 教授。他最知名的成就是其 2003 年的 MonoSLAM 系統,他是第一個展示如何在單個「單眼」攝像頭上構建 SLAM 系統的人,而那時候其他所有人都還認為打造 SLAM 系統需要一個立體的「雙眼」攝像頭套件。最近,他的研究成果已經對戴森(Dyson)等公司的發展軌跡和他們的機器人系統的能力產生了影響(如全新的 Dyson360)。
我還記得 Davidson 教授曾在 2007 年的 BMVC(英國機器視覺大會)上給出了一個視覺 SLAM 教程。讓人驚訝的是,和主要的視覺大會上其它機器學習技術的紛繁成果相比,SLAM 的變化真是非常之少。過去八年裡,物件識別已經經歷了兩三次小型變革,而今天的 SLAM 系統和其八年前的樣子看起來並沒有多大不同。瞭解 SLAM 的進展的最好方法是看最成功和最讓人難忘的系統。在 Davidson 的研討會介紹演講中,他討論了一些過去 10-15 年裡科研界所打造的典範系統:
MonoSLAM
PTAM
FAB-MAP
DTAM
KinectFusion
1.Davison vs Horn:機器人視覺的下一篇章
Davison 還提到他正在寫一本關於機器人視覺的新書,這對計算機視覺、機器人和人工智慧領域的研究者來說應該是一個激動人心的好訊息。上一本機器人視覺的書是由 B.K. Horn 寫的(出版於 1986 年),現在也到該更新的時候了。
儘管我很樂意閱讀一本重在機器人視覺原理的鉅著,但我個人希望該書關注的是機器人視覺的實用演算法,就像 Hartley 和 Zissermann 的傑作《Multiple View Geometry(多檢視幾何)》或 Thrun、Burgard 和 Fox 所著的《Probabilistic Robotics(概率機器人學)》那樣。一本關於視覺 SLAM 問題的「食譜」將會受到所有嚴肅的視覺研究者歡迎。
演講一:Christian Kerl 談 SLAM 中的連續軌跡
第一個演講來自 Christian Kerl,他提出了一種用於估計連續時間軌跡的密集跟蹤方法。其關鍵觀察結果發現:大部分 SLAM 系統都在離散數目的時間步驟上估計攝像頭的位置(要麼是相隔幾秒的關鍵幀,要麼是相隔大約 1/25 秒的各個幀。
Kerl 的大部分演講都集中於解決捲簾式快門相機的危害,而 Kerl 演示的系統還對建模給予謹慎的關注並消除了這些捲簾式快門的不利影響。
幻燈片:Kerl 的「密集連續時間跟蹤和測繪」幻燈片
論文:使用捲簾式快門 RGB-D 相機的密集連續時間跟蹤和測繪(C. Kerl, J. Stueckler, D. Cremers), IEEE 國際計算機視覺大會 (ICCV), 2015。
演講二:Jakob Engel 談半密集直接 SLAM(Semi-Dense Direct SLAM)
LSD-SLAM 在 ECCV 2014(2014 年歐洲計算機視覺國際會議)上公開,也是我現在最喜歡的 SLAM 系統之一!Jakob Engel 在那裡展示了他的系統並向觀眾展示了當時最炫酷的一些 SLAM 視覺化。LSD-SLAM 是 Large-Scale Direct Monocular SLAM(大規模直接單眼 SLAM)的縮寫。對 SLAM 研究者來說,LSD-SLAM 是一個非常重要的系統,因為它不使用邊角(corners)或其它任何本地特性。通過使用一種帶有穩健的 Huber 損失的由粗到細的演算法,直接跟蹤可由影象到影象對準(image-to-image alignment)完成。這和那些基於特徵的系統非常不同。深度估計(depth estimation)使用了逆深度引數化(inverse depth parametrization)(和許多其它系統一樣)並使用了大量或相對小的基準影象對。該演算法並不依賴於影象特徵,而是靠有效地執行「紋理跟蹤(texture tracking)」。全域性對映是通過建立和解決姿態圖形(pose graph)的「束調整」優化問題而執行的,而且這所有都是實時工作的。這個方法是半密集的,因為它僅估計靠近影象邊界的畫素深度。LSD-SLAM 輸出比傳統的特徵更密集,但並不如 Kinect 型別的 RGBD SLAM 那樣完全密集。
工
Engel 概述了原來的 LSD-SLAM 系統以及一些新成果,將它們最初的系統擴充套件成更有創造性的應用並實現了更有趣的部署。(見下面引用的論文)
論文:LSD-SLAM:大規模直接單眼 SLAM (J. Engel, T. Schöps, D. Cremers),歐洲計算機視覺國際會議,2014。
Omni LSD-SLAM(全方位 LSD-SLAM)是 LSD-SLAM 的一種延伸,因觀察到針孔模型(pinhole model)不能用於大視場的觀測而被創造出來。這項成果提出於 IROS 2015(2015 年智慧機器人和系統國際大會)(Caruso 是第一作者),能用於大視場(理想情況下可超過 180 度)。Engel 的演講很清楚地表示,你可以拿著相機以芭蕾舞般的動作(極限旋轉)在你的辦公室內走來走去。這是窄視場 SLAM 最糟糕的應用場景之一,但卻在 Omni LSD-SLAM 中效果良好。
論文:用於全方位相機的大規模直接 SLAM (D. Caruso, J. Engel, D. Cremers),智慧機器人和系統國際大會(IROS), 2015。
Stereo LSD-SLAM(立體 LSD-SLAM)是 LSD-SLAM 的一種用於雙眼攝像頭套件的延伸。這有助於獲得沒有限制的規模,而且其初始化是瞬時的,強烈旋轉也不存在問題。儘管從學術的角度看,單眼 SLAM 是很激動人心,但如果你的機器人是一輛 30,000 美元的車或 10,000 美元的無人機原型,你應該有足夠的理由使用一套帶有兩個乃至更多攝像頭的套件。Stereo LSD-SLAM 在 SLAM 基準上表現出了相當強的競爭力。
Stereo LSD-SLAM 相當實用,能優化 SE(3) 中的姿態圖形(pose graph),幷包含了對自動曝光的校正。自動曝光校正的目標是讓誤差函式相對於仿射光照變化而不變。顏色空間仿射轉換的基本引數是在匹配過程中估算出來的,但也被扔掉以估計影象到影象變換中的錯誤。Engel 在演講中稱,離群值(outliers)(通常是由過度曝光的影象畫素造成的)往往會帶來問題,需要很仔細才能處理它們的影響。
使用立體相機的大規模直接 SLAM(J. Engel, J. Stueckler, D. Cremers), 智慧機器人和系統國際大會(IROS), 2015。
在他後面的演示中,Engel 讓我們一窺了關於立體和慣性感測器的整合新研究。為了瞭解詳情,你只能跟蹤 arXiv 上的更新或向 Usenko/Engel 本人瞭解。在應用方面,Engel 的演示中包含了由 LSD-SLAM 驅動的自動化四軸無人機的更新視訊。其飛行一開始是上下運動的,以獲得對尺寸的估計,然後又使用了自由空間的三維測繪(octomap)以估計自由空間,從而讓該四軸無人機可以在空間中為自己導航。
LSD-SLAM 的故事也是「基於特徵 vs 直接方法」的故事,Engel 給了辯論雙方公正的待遇。基於特徵的方法被設計用在 Harris 那樣的邊角之上,而直接方法則是用整個影象進行對準。基於特徵的方法更快(截至 2015 年),但直接方法在並行處理上效果很好。離群值可以通過追溯的方法從基於特徵的系統中移除,而直接方法在離群值處理上沒那麼靈活。捲簾式快門是直接方法的一個更大的問題,而且使用全域性快門或捲簾式快門模型是有意義的(見 Kerl 的研究)。基於特徵的方法需要使用不完整的資訊進行決策,而直接方法可以使用更多資訊。基於特徵的方法不需要很好的初始化,而直接方法在初始化上需要更巧妙的技巧。對直接方法的研究只有 4 年,稀疏方法則有 20 多年的歷史了。Engel 樂觀地認為直接方法未來將上升成為頂級方法,我也這麼想。
在 Engel 演講最後,Davison 問到了語義分割(semantic segmentation)方面的問題,而 Engel 不知道語義分割是否可以在半密集的「接近影象邊界」的資料上直接執行。但是,我個人的看法是,有更好的方法可將語義分割應用到 LSD 型別的 SLAM 系統上。半密集 SLAM 可以專注於靠近邊界的幾何資訊,而物件識別可以專注於遠離這同一邊界的可靠語義,從而有可能創造出一個混合了幾何和語義的影象解讀。
演講三:Torsten Sattler 談大規模定位與地圖構建面臨的挑戰
Torsten Sattler 的演講談論了大規模定位與地圖構建。這項工作的目的是在已有的地圖內執行六個自由度的定位,尤其是移動定位。演講中的一個關鍵點是:當你使用傳統的基於特徵的方法時,儲存你的描述很快就將變得非常昂貴。視覺詞彙表(visual vocabularies)(記得產品量化嗎?)等技術可以顯著減少儲存開銷,再加上某種程度的巧妙優化,描述的儲存將不再成為儲存瓶頸。
Sattler 的演講給出的另一個重要的關鍵資訊是正確資料(inliers)的數量實際上並不是相機姿態估計( camera pose estimation)的很好的置信度測量。當特徵點全都集中於影象的單一一個部分時,相機定位可能會在千里之外!一個更好的置信度測量是「有效正確資料計數(effective inlier count)」,其可以將正確資料所在的區域作為整體影象區域的一個部分來進行審查。你真正希望得到的是整體影象上的特徵匹配——如果資訊散佈在整個影象上,你能得到更好的姿態估計。
Sattler 對未來實時 SLAM 的演講是這樣的:我們應該關注緊湊型的地圖表徵,我們應該對相機姿態估計置信度有更好的理解(如樹上權重下降的特徵),我們應該在更有挑戰性的場景中研發(例如帶有平面結構的世界和在白天的地圖上的夜間定位)。
論文:移動裝置上可擴充套件的 6 自由度定位. Sven Middelberg, Torsten Sattler, Ole Untzelmann, Leif Kobbelt. ECCV 2014。
幻燈片:Torsten Sattler 的「大規模定位與地圖構建面臨的挑戰」
演講四:Raúl Mur-Artal 談基於特徵的方法 vs 直接方法
ORB-SLAM 的創造者 Raúl Mur-Artal 的演講內容全部圍繞著 SLAM 領域內「基於特徵的方法 vs 直接方法」的爭論,而他顯然站在基於特徵的方法一邊。ORB-SLAM 可通過一個開源的 SLAM 軟體包獲取,而且它很難被擊敗。在他對 ORB-SLAM vs PTAM 的評價中,似乎 PTAM 實際上常常失敗(至少在 TUM RGB-D 基準上)。LSD-SLAM 在 TUM RGB-D 基準上的錯誤通常遠高於預期。
幻燈片:Mur-Artal 的「我們仍然應該做稀疏的基於特徵的 SLAM 嗎?」
論文:單眼 ORB-SLAM R. Mur-Artal, J. M. M. Montiel 和 J. D. Tardos。一種多功能的準確的單眼 SLAM 系統。 IEEE Transactions on Robotics, 2015。
演講五:Tango 專案和用於影象到影象限制的視覺環路閉合
簡單來說,谷歌的 Tango 專案是世界上第一個商業化 SLAM 的嘗試。來自 Google Zurich 的 Simon Lynen(之前屬於 ETH Zurich)帶著一個 Tango 現場演示(在一臺平板電腦上)來到了研討會,並展示了 Tango 世界的新內容。你可能不知道,谷歌希望將 SLAM 能力整合到下一代安卓裝置中。
Tango 專案展示討論了一種通過在影象到影象匹配矩陣中尋找特定的模式以進行環路閉合( loop closure)的新方法。這 個方法來自「沒有固定位置的位置識別」成果。他們也做帶有基於視覺的環路閉合的線上束調整。
Tango 專案的人也在研究將谷歌多個眾包地圖結合起來,其目標是將由不同的人使用配置有 Tango 的裝置創造的多個迷你地圖結合起來。
Simon 展示了一個山地自行車軌跡跟蹤的視訊,這在實踐中實際上是相當困難的。其中的想法是使用一個 Tango 裝置跟蹤一輛山地自行車,並建立一份地圖,然後後續的目標是讓另外一個人沿著這條軌跡走。這個目前只是「半有效」——當在地圖構建和跟蹤步驟之前有幾個小時時間時有效,但過了幾周/幾個月就沒效果了。
在 Tango 相關的討論中,Richard Newcombe 指出 Tango 專案所使用的「特徵(features)」在更深度地理解環境上還是相當落後的,而且看起來類似 Tango 專案的方法無法在室外場景中起作用——室外場景有非剛性(non-rigidity)的大量光照變化等。所以我們有望見到為室外環境設計的不同系統嗎?Tango 專案將成為一個室內地圖構建裝置嗎?
論文:沒有固定位置的位置識別. Lynen, S. ; Bosse, M. ; Furgale, P. ; Siegwart, R. In 3DV 2014。
演講六:ElasticFusion 是沒有姿態圖形(pose graph)的密集型 SLAM ( Dense SLAM)
ElasticFusion 是一種需要 Kinect 這樣的 RGBD 感測器的密集型 SLAM 技術。2-3 分鐘就能獲得單個房間的高質量 3D 掃描,這真是相當酷。(就算不是大部分)許多 SLAM 系統的場景背後都使用了姿態圖形(pose graph),這種技術有一種不同的(以地圖為中心)方法。該方法專注於構建地圖,但其訣竅是其構建的地圖可以變形,也因此得名 ElasticFusion(意為彈性融合)。其中演算法「融合」的部分是向 KinectFusion 致敬——KinectFusion 是第一個高質量的基於 Kinect 的重建方式。Surfels 也被用作底層的基元(primitives)。
恢復光源:我們一窺了來自倫敦帝國學院/戴森機器人實驗室的尚未發表的新研究成果。其中的想法是通過探測光源方向和探測鏡面反射,你可以提升 3D 重建的結果。關於恢復光源位置的炫酷視訊顯示其最多能處理 4 個獨立光源。
幻燈片:「使用 Elastic Fusion 的以地圖為中心的 SLAM」演示幻燈片
論文:Elastic Fusion:沒有姿態圖形的密集型. SLAM. Whelan, Thomas and Leutenegger, Stefan and Salas-Moreno, Renato F and Glocker, Ben and Davison, Andrew J. In RSS 2015。
演講七:Richard Newcombe 的 DynamicFusion(動態融合)
Richard Newcombe(他最近成立的公司被 Oculus 收購)是最後一位展示者。Richard Newcombe 是 DTAM、KinectFusion 和 DynamicFusion 背後的人,見到他真是非常酷;他目前從事虛擬現實領域的研發。
論文:DynamicFusion:非剛性場景的實時重建和跟蹤. Richard A. Newcombe, Dieter Fox, Steven M. Seitz. In CVPR 2015(CVPR 2015 最佳論文)。
論文:SLAM++:物件水平上的同步定位與地圖構建. Renato F. Salas-Moreno, Richard A. Newcombe, Hauke Strasdat, Paul H. J. Kelly and Andrew J. Davison (CVPR 2013)
論文:KinectFusion:實時密集表面地圖構建和跟蹤. Richard A. Newcombe Shahram Izadi,Otmar Hilliges, David Molyneaux, David Kim, Andrew J. Davison, Pushmeet Kohli, Jamie Shotton, Steve Hodges, Andrew Fitzgibbon (ISMAR 2011, 最佳論文獎!)
2.研討會演示
在演示會議期間(在研討會中間舉行),許多展示者展示了他們的 SLAM 系統工作中的樣子。這些系統中許多都是以開源軟體包的形式提供的(非商業用途免費?),所以如果你對實時 SLAM 感興趣,可以嘗試下載這些程式碼。但是,最亮眼的演示是 Andrew Davison 展櫃上他的來自 2004 年的 MonoSLAM 演示。Andrew 不得不恢復了已有 15 年歲月的計算機(執行的是 Redhat Linux)來展示他原來的系統,執行在原來的硬體上。如果計算機視覺社群將決定舉辦一場「復古視覺」的演示會議,那我馬上就將上前提名 Andrew 應得最佳論文獎。
看著 SLAM 系統專家揮動自己的 USB 攝像頭真是一件有趣的事——他們在展示他們的系統圍繞他們的膝上型電腦構建周圍桌子大小區域的 3D 地圖。如果你仔細看了這些專家移動攝像頭的方式(即平穩的圓圈運動),你幾乎就能看出一個人在 SLAM 領域工作了多長時間。當一位非專家級的人拿著攝像頭時,跟蹤失敗的概率明顯更高。
我有幸在演示會議期間和 Andrew 進行了交談,我很好奇這一系列的成果(過去 15 年中)中哪一個最讓他感到驚訝。他的回答是 PTAM 最讓他吃驚,因為其表明了實時束調整(real-time bundle adjustment)執行的方式。PTAM 系統本質上是 MonoSLAM++ 系統,但因為採用了一種重量級演算法(束調整)而顯著提高了跟蹤效果並做到了實時——在 2000 年代早期 Andrew 還認為「實時」是不可能辦到的。
第三部分:深度學習 vs SLAM
SLAM 小組討論真是樂趣無窮。在我們進入重要的「深度學習 vs SLAM」討論之前,我應該說明每一位研討會展示者都同意:語義對構建更大更好的 SLAM 系統是必需的。關於未來的方向,這裡有很多有趣的小對話。在爭論中,Marc Pollefeys(一位知名的 SfM 和多視角幾何研究者)提醒所有人「機器人是 SLAM 的一個殺手級應用」,並建議我們保持對「大獎」的關注。這令人非常驚訝,因為 SLAM 傳統上是適用於機器人問題的,但過去幾十年機器人並沒有什麼成功(谷歌機器人?),導致 SLAM 的關注重點從機器人轉移到了大規模地圖構建(包括谷歌地圖)和增強現實上。研討會上沒人談論過機器人。
1.將語義資訊整合到 SLAM 中
人們對將語義整合到今天最出色的 SLAM 系統中有很大興趣。當涉及語義時, SLAM 社群不幸地卡在了視覺詞袋(bags-of-visual-words)的世界裡,而在如何將語義資訊整合進他們的系統上沒有什麼新想法。在語義一端,我們現在已經看到 CVPR/ICCV/ECCV 上冒出了很多實時語義分割演示(基於卷積神經網路);在我看來,SLAM 需要深度學習,而深度學習也一樣需要 SLAM。
2.「端到端學習(end-to-end learning)會主宰 SLAM 嗎?」
在 SLAM 研討會小組討論結束時,Zeeshan Zia 博士提出了一個震驚所有人的問題,並引發了一場充滿能量的討論,令人難忘。你應該看看小組成員們臉上的表情。那就像是將一個深度學習的火球投向一群幾何學家。他們的面部表情表達出了他們的困惑、憤怒和厭惡。他們想:「你怎麼敢質疑我們?」正是在這些稍縱即逝的時刻,我們才能真正體會到大會的體驗。Zia 的問題基本上是:「在構建今天的 SLAM 系統時,端到端學習很快就將取代大部分人工勞動嗎?」
Zia 的問題非常重要,因為端到端的可訓練系統已經慢慢進入到了很多高階的計算機問題中,相信 SLAM 會是一個例外是沒有道理的。有好幾位展示者都指出當前的 SLAM 系統過於依賴幾何,以至於讓完全基於深度學習的 SLAM 系統看起來不合理了——我們應該使用學習技術得到更好的點描述,而不要管幾何。「你可以使用深度學習做一個計算器,並不意味你應該這麼做。」
儘管許多小組討論發言人都使用了有些肯定的「不行」迴應,但讓人驚訝的是,卻是 Newcombe 聲援了深度學習和 SLAM 聯姻的可能。
3.Newcombe 的提議:使用 SLAM 助力深度學習
儘管 Newcombe 在深度學習可能如何幫助 SLAM 上沒有提供很多證據或想法,但他卻為 SLAM 如何可能為深度學習提供幫助給出了一條清晰的路徑。想想看我們使用大規模 SLAM 已經構建出的地圖以及這些系統所提供的對應(correspondence)——這難道不是一個構建能幫助深度學習的萬億級影象到影象「相關」資料集的清晰路徑嗎?其基本思路是:今天的 SLAM 系統是大規模的「對應引擎」,可以用來生成大規模資料集,而這正是深度卷積神經網路所需要的。
結語
這次 ICCV 大會上主流的工作(重在機器學習)和本次實時 SLAM 研討會所呈現出現的工作(重在束調整等幾何方法)之間存在相當大的脫節。主流的計算機視覺社群在過去十年內已經見證了多次小型變革(如:Dalal-Triggs、DPM、ImageNet、ConvNets、R-CNN),而今天的 SLAM 系統和它們八年前的樣子並沒有很大的不同。Kinect 感測器可能是 SLAM 領域唯一的最大的徹底變革的技術,但基礎演算法仍舊保持著原樣。
今天的 SLAM 系統能幫助機器在幾何上理解眼前的世界(即在本地座標系中構建關聯),而今天的深度學習系統能幫助機器進行分類推理(即在不同的物件例項之上構建關聯)。總的來說,在視覺 SLAM 上,我與 Newcombe 和 Davison 一樣興奮,因為基於視覺的演算法將會將增強現實和虛擬現實轉變成一個價值數十億美元的產業。但是,我們不應忘記保持對那個「萬億美元」市場的關注,那個將重新定義「工作」的市場——機器人。機器人 SLAM 的時代很快就要到來了。