1. 程式人生 > >【翻譯】Visual Place Recognition_ A Survey視覺場景識別綜述【一】

【翻譯】Visual Place Recognition_ A Survey視覺場景識別綜述【一】

**摘要:**因為現實環境的外觀變化迥異,對基於視覺的場景識別是一個具有挑戰性的難題。近年來,視覺場景識別系統有了很大的突破,原因主要包括視覺感測器環境感知能力的提高,對長期移動機器人自主性的日益關注,以及利用其他學科的最新研究的能力(特別是在計算機視覺中的識別和神經科學中的動物導航)。本文將提供(詳實的)視覺場景識別調研大綜述。。我們首先介紹場景識別的基本概念——場景識別在動物界中的作用,“地點”在機器人語境中是如何定義的,以及場景識別系統的主要組成部分。在機器人持久作業過程中,環境外觀的改變是視覺場景識別失敗的重要因素; 因此,我們討論了場景識別如何處理環境外觀變化問題。最後,我們進一步討論了視覺場景識別的未來發展,特別是深度學習(deep learning),語義場景理解(semantic scene understanding)和視訊流描述(video description)的相關領域中的快速發展。
**關鍵詞:**視覺場景識別,場景識別
1 介紹


  視覺場景識別是一個定義明確,但極具挑戰性的問題; 給定一張影象,人、動物或機器人能不能判斷這個影象中的地方是否已經看到過?無論對於人類、動物、計算機還是機器人,一個場景識別系統必須具備一些基本的內容。首先,場景識別系統必須具有對環境的內部表示(地圖),可以用來與輸入的視覺資料進行比較。第二,場景識別系統必須判斷當前視覺資訊是否表示包含在地圖中地點,如果是,是哪一個。由於一系列挑戰,比如地點的外觀可能會急劇變化(見圖1),環境中的多個地方可能看起來非常相似,即感知偏差問題,觀測時與地圖儲存時機器人的方位不同,這些都會造成基於視覺的場景識別執行起來比較困難。
在這裡插入圖片描述
圖1 視覺場景識別系統必須能夠(a)成功地匹配感知上差異較大的影象,還要(b)剔除不同地方的易混疊影象對之間的誤匹配。

  考慮到對持久作業移動機器人自主性的日益重視,以及視覺感知能力和成本的快速提高,該研究主題在機器人學中是非常重要的。視覺是許多定位和場景識別演算法的主要感測資訊【1】-【19】。場景識別是一個不斷擴大的研究領域,引文分析可以證明這一點,而且在機器人和計算機視覺會議上,會有專門關於場景識別的研討會,其中包括IEEE International Conference on Robotics and Automation (2014, 2015) 和IEEE Conference on Computer Vision and Pattern Recognition (2015). 長期的場景識別問題也成了許多研討會的常規主題,包括專門針對“長期自主性”的ICRA研討會(2011-2014年)。
  我們寫這篇綜述的目的是提供一個全面的場景識別研究的現狀,這也與機器人學和其他領域的研究,包括計算機視覺和神經科學相關。寫這個綜述的時機較好,因為相關領域的一些重大突破:比如,在計算機視覺領域內,最先進的識別系統幾乎普遍使用深度學習技術,2014年諾貝爾生理學或醫學獎授予了Edvard Moser,May-Britt Moser和John O’Keefe,他們發現了哺乳動物的大腦的描述方法。本文提供了場景識別問題,以及該問題與許多其他機器人研究領域的關係,包括實時定位與建圖(SLAM),定位,地圖構建和識別。由於研究人員越來越重視機器人在惡劣環境中的長期自主性問題,我們還特別討論了機器人視覺場景識別的永續性問題。

2 地點在機器人學和自然界中的概念
  導航和場景識別在心理學和神經科學中就是一個經典問題。1948年Tolman在大鼠走迷宮的研究[ 20 ]中,提出了認知地圖——動物逐漸學習到的不同地點之間相互關係資訊,是世界資訊的心理表徵。對於認知地圖的概念,雖然也有人批判的[ 21 ]、[ 22 ],但其影響涉及心理學和神經科學等領域,同時也包括城市規劃(Lynch [ 23 ]提出認知地圖的元素是路徑、邊緣、節點、區域和地標),和機器人學(建圖方法受認知地圖[ 24 ]、[ 25 ],及空間語義層次[ 26 ]的啟發)領域。
在這裡插入圖片描述
[圖2 神經實驗顯示,動物,例如大鼠,的大腦含有位置細胞和網格細胞。在特定環境中,位置細胞在一個位置啟用,而網格細胞在多個,規則間隔的位置啟用。該圖顯示了當動物在一個方形環境中行走的時候(a)位置細胞和(b)網格細胞的興奮位置。(Annual Review of Neuroscience by Annual Reviews. Republished with permission of Annual Reviews, from 34|; permission conveyed through Copyright Clearance Center, Inc.).
  隨著記錄動物腦中神經活動技術的發展[27],O’Keefe和Dostrovsky [28]識別出大鼠海馬中的位置細胞[28]。當大鼠在環境中的特定地方時,位置細胞會啟用[見圖 2(a)],這些位置細胞群覆蓋整個區域[29],[30]。此外,如果大鼠從一個環境移動到另一個環境,相同的位置細胞可以用來表示多種不同的環境。O’Keefe和Conway [31]提出,這些位置細胞構成了Tolman認知地圖的一部分。通過背部前下託的頭向細胞[32]和在中間內嗅皮層中的網格細胞[33]的發現,神經活動和實際地點之間關係得到進一步瞭解。動物沿特定方向轉動頭部時,頭向細胞會興奮,而網格細胞在環境中的多個位置處興奮,它們的興奮區域形成規則網格 [見圖2(b)]。
  通過位置細胞的興奮位置,我們觀察到場景識別被感官訊號和自身運動激發[29]。對大鼠的研究顯示,位置細胞最初基於自身運動而興奮,但如果環境改變——例如,改變出發點和目的地之間的距離——位置細胞會根據看到的地標校正到正確的位置[35],[36]。根據不匹配的程度,校正可能是平滑的,也可能是突然的。
在這裡插入圖片描述
圖3 視覺場景識別系統的框圖。 輸入的視覺資料由影象處理模組處理。機器人對世界的感知資訊儲存在地圖中。置信度生成模組決定當前視覺資訊是否與先前儲存的地點匹配。系統中通常還包括運動資訊,地圖在執行過程中可以不斷地更新。
  許多與上面相同的概念會出現在機器人中。大多數機器人能夠獲取外部觀測資料,以及自身運動資訊,並通過地點之間的拓撲度量關係與感官資訊結合來確定最可能的位置,這類似於位置細胞的神經元興奮。圖3描述了視覺場景識別系統框圖。視覺場景識別系統包含三個關鍵部分:影象處理模組(用於解釋輸入視覺資料),地圖(維護機器人對世界的感知),以及置信度生成模組(通過輸入的感測器資料與地圖結合,來判斷機器人是在一個到過的地方還是處於一個新的地點)。場景識別系統還可以將運動資訊或影象處理後的資訊提供給置信度生成模組。大多數場景識別系統為線上操作,並實時更新地圖。
這篇文章討論了在機器人導航中“地點”的概念。它著眼於組成地方識別系統的三個關鍵模組:影象處理模組,地圖框架,和置信度生成模組。接著,本文討論環境變化的問題。然後論文重新討論每個模組——影象處理模組,地圖框架,和置信度生成模組,並且研究位置識別系統的每個模組如何適應環境的外觀變化的。