一文帶你瞭解基於視覺的機器人抓取自學習(Robot Learning)

阿新 • • 發佈：2020-10-16

點選上方“3D視覺工坊”，選擇“星標”

乾貨第一時間送達

“一眼就能學會動作”，或許對人而言，這樣的要求有點過高，然而，在機器人的身上，這個想法正在逐步實現中。馬斯克（Elon Musk）創立的人工智慧公司Open AI研究通過One-Shot Imitation Learning演算法(一眼模仿學習)，讓機器人能夠複製人類行為。現階段理想化的目標是人類教機器人一個任務，經過人類演示一次後，機器人可以自學完成指定任務。機器人學習的過程，與人類的學習具有相通之處，但是需要機器人能夠理解任務的動作方式和動作意圖，並且將其轉化為機器人自身的控制運動上。

“機器人學習”是機器人研究的重要方向，其中包含了計算機視覺，自然語言處理，機器人控制等眾多技術。機器人抓取(Robotic manipulation/grasping)是機器人智慧化發展道路上亟待解決的問題之一。相較於傳統的開環控制系統，本文將從基於視覺，基於視覺和語音，基於視覺和觸覺三個方向出發，介紹機器人抓取的相關研究進展，並羅列相關的文章供大家查詢閱讀。

1、基於視覺資訊的機器人抓取學習

Google AI Blog: Grasp2Vec: Learning Object Representations from Self-Supervised Grasping

【論文原文摘要】結構良好的視覺表示可以使機器人學習更快，並且可以提高通用性。在本文中，研究人員研究了在沒有人工標記的情況下，如何通過使用自主的機器人與環境的互動獲得有效的以物體為中心的表示方法，即可完成機器人操作任務。這種機器人學習的方法可以讓機器人收集獲取更多的經驗，不斷完善機器人的認知，從而無需人工干預即可有效地進行縮放。本文中的學習方法是基於物件的永久性：當機器人從場景中刪除物件時，該場景的表示會根據被刪除物件的特徵而隨之變化。研究人員根據觀察結果會在特徵向量之間建立關係，並使用它來學習場景和物體的表示。這些場景和物體可用於識別物件例項，將它們在場景中進行定位，並在機器人從目標箱中檢索命令物件時，執行以目標為導向的任務。整體的抓取過程是通過記錄場景影象，抓取和移除物體以及記錄結果，該抓取過程也可以用於為文中的方法自動收集訓練資料。文中實驗表明，這種用於任務抓取的自我監督方法明顯優於直接增強影象學習方法和先前的表徵學習方法。

從小時候開始，即使從未有人明確地教過如何做，人們依舊能夠識別並收拾取自己喜歡的物品。根據認知發展研究，這種與世界中的物體相互互動的能力，在人類感知和操縱物體的能力形成的過程中起著重要的作用。通過與周圍世界的互動，人們可以通過自我監督來學習：知道自己採取了什麼行動，並且從結果中學到了什麼知識。在機器人技術中，人們積極研究了這種自我監督型學習，因為它使機器人系統無需大量的訓練資料或人工監督即可進行學習。

受物件永久性概念的啟發，研究人員提出了Grasp2Vec，一種用於獲取物體表示的簡單而高效的演算法。Grasp2Vec演算法中嘗試抓取任何東西都會獲取以下幾條資訊——如果機器人抓住一個物體並將其抬起，則物體必須在抓取前進入場景。此外，若機器人知道它抓住的物體當前處於夾爪中，就會將其從場景中移除。通過使用這種形式的自監督，機器人可以利用抓取前後的場景視覺變化來學習識別物體。

基於前與X Robotics合作的基礎上(該專案的任務是讓一系列機器人同時學習使用單目相機輸入來抓取家用物品)，研究人員使用機械臂“無意間”抓取物體，這種經驗使機器人能夠學習豐富的影象物件。這些表示可用於獲取“有意抓握”的能力，並且機械臂可以拾取使用者指定的物件。

在強化學習的框架中，通過“獎勵函式”可以衡量任務的成功與否。通過最大化獎勵函式，機器人可以從頭開始自學各種抓握的技能。如果任務的成功與否可以通過簡單的方法來衡量，設計獎勵函式就很容易。一個簡單的例子是當一個按鈕被按下時，該按鈕直接向機器人提供獎勵。

然而，當成功標準取決於對當前任務的“感性理解”時，設計獎勵函式的難度就會加大。考慮例項抓取的任務，其中機器人看到的是期望的物體圖片。當機器人試圖抓住該物體後，將會檢查抓取的物件。此任務的獎勵函式可以看作物體識別問題：抓住的物體是否與期望相匹配？

為了解決這種識別問題，需要一種感知系統：該系統能從非結構化影象資料中提取有意義的物體概念，並能以無監督的方式學習物體的視覺感知。該研究在資料收集的過程中，利用機器人可以操縱物體移動的優勢，提供資料所需的變化因素。通過對物體進行抓取，可以獲得1）抓取前的場景影象；2）抓取後的場景影象；3）抓握物體本身的孤立檢視。

研究人員提出了一個從影象中提取“物體集合”的嵌入函式，該函式滿足以下減法關係:

文中使用了全卷積架構和簡單的度量學習演算法來實現這種等式關係，特徵圖中嵌入抓取前的場景影象和抓取後的場景影象，並將其平均池化後儲存到向量中，而“抓取前”和“抓取後”向量的差表示一組物體。該向量和對應的被抓取物體的向量表示之間的等價約束是通過N-Pairs目標函式實現的。通過N-Pairs目標函式實現該向量和對應的被抓取物體的向量之間的等價約束關係。

訓練過後，模型中會出現兩個有用的屬性。

1）物體相似度

第一個屬性是餘弦距離，利用向量間的餘弦距離對物體進行比較，並確定是否相同。這個屬性可以用於實現強化學習的獎勵函式，並允許機器人在沒有人工提供的標籤的情況下學習例項抓取。

2）目標物體本地化

第二個屬性是，可以組合場景空間對映和物體嵌入來本地化影象空間中的“查詢物件”。將空間場景的特徵圖和查詢物件的向量相乘，以找到兩者之間“匹配”的所有畫素。例如下圖中的場景，模型可以檢測出場景中的多個相應的色塊，通過點乘得到的“熱圖”，可用於規劃機器人接近目標物體的方法。

該專案展示了機器人抓取技能如何生成用於學習以物體為中心的表示的資料，並使用表示學習來實現更復雜的技能，例如例項抓取，與此同時保留自主抓取系統中的自監督學習屬性。

2、基於視覺和語音資訊的機器人抓取

Improving Grounded Natural Language Understanding through Human-Robot Dialog

【摘要】機器人自然語言理解會需要大量特定性領域和平臺的工程量。例如，移動機器人在特定環境中接收操縱者的命令拾取放置物品，人類可以指定語言為某類命令，並將概念詞與物體物件的屬性進行關聯，例如紅色這樣的概念詞。減輕類似工作量的方法是使環境中的機器人能夠動態適應，不斷學習新的語言構造和感知概念等。在這項工作中，研究人員提出了一種端到端的方法，用於將自然語言命令翻譯為離散的機器人動作，並使用對話方塊共同明確和改善語義和基礎概念。研究在Amazon Mechanical Turk的虛擬設定上對該目標物件進行訓練和評估，並將該智慧體轉移到現實世界中的物理機器人平臺上，進行展示。

隨著機器人在家庭、工廠和醫院等環境中變得無處不在，人類對有效的人機互動的需求也在不斷增長。上述各類場景中會包含特定的詞彙和行為啟示，例如，開啟廚房的燈；把托盤往北移6英尺；如果病人的情況有變化，就通知我。因此，預程式設計機器人的語言理解會需要昂貴的特定性領域和平臺的工程。在本文中，研究人員提出並評估了一種機器人智慧體，它可以通過與人類對話的方式擴充套件一個初始狀態下資源較少、依靠手工程式設計的語言理解管道，從而與人類夥伴更好地達成共識。

研究人員結合了通過對話的訊號進行更好的語義解析(以前不使用物體的感官表徵)和主動學習方法來獲取這些概念(以前僅限於物件識別任務)。因此,文中的系統能夠執行自然語言命令，例如將一個能發出叮叮噹噹響聲的容器從會議室的休息室移到Bob的辦公室，其中包含組成語言（例如，語義分析器理解的會議室休息室以及將由其識別的物件的物理性質，如能發出叮叮噹噹響聲的容器）。系統僅用少量的用於語義解析的自然語言資料進行初始化，沒有將概念詞與物理物件繫結的初始標籤，而是需要通過人機對話學習解析和接地。

本文的貢獻主要是:1)提出了一種對話策略，僅利用少量初始領域內的訓練資料來提高語言理解;2)利用對話問題在現場實時獲取感知認識，而不是僅從預先標記的資料或過去的互動過程中獲取;3)在一個完整的物理機器人平臺上部署對話智慧體。

研究人員在Mechanical Turk上評估智慧體的學習能力和可用性，要求使用者通過對話指揮智慧體去完成三個任務:導航(由廚房去休息室)，傳遞(將紅色的罐子拿給Bob),和搬運(將一個空瓶子從廚房休息室轉移到愛麗絲的辦公室)。研究發現，根據之前對話中提取的資訊對智慧體進行訓練後，它的評價指標會更好。然後，研究人員將經過訓練的智慧體轉移到物理機器人上，並在人機對話中演示它的持續學習過程。

該會話智慧體主要通過視覺資訊和自然語言結合完成請求。整體主要包括以下幾個部分。1)語義解析器：智慧體通過獲取的單詞序列推斷任務的語義表示，使用組合類別語法(CCG)形式來進行解析。2)語言接地，根據不同的外部環境，相同的語義也可能會以不同的方式接地。例如，廚房旁邊的辦公室指的是一個物理位置，但這個位置取決於建築。3)對話方塊，人機之間的對話常常從人類使用者開始，指示智慧體完成某項任務，智慧體會對未觀察到的真實任務進行建模，並使用來自使用者的語言訊號推斷該任務。該命令由語義解析和基礎元件處理，以獲得成對的符號和置信狀態值。置信狀態值通過語義解析（例如，“在北邊的辦公室的豆莢”中的介詞歧義；豆莢還是辦公室向北）和語言理解（例如，嘈雜的概念模型）步驟對不確定性進行建模。4)從對話中學習：該智慧體通過在完成的對話中引入訓練資料來改進其語義解析器，智慧體能夠將使用者的初始命令與確認的動作進行匹配，從會話中學習語義。同時，採用主動學習的方式，從向用戶提出的問題中快速擴充套件感知概念模型，然後在各個使用者之間彙總擴充套件，並且可以將學習到的概念應用於遠端測試物件，有助於獲取新概念。

會話智慧體的組成如下圖所示，左側是將使用者的命令進行語義解析，中間為利用已有的地圖和概念模型等資訊對指令進行接地，右側是利用對話改進完善智慧體的認知模型。

實驗中指定的任務包含：根據使用者指示完成到達指定地點，將物品遞送給某人，將物品從指定地點移動到目的地。下圖為受過訓練的智慧體採用動態學習的方式實現指定的目標。

上表比較初始智慧體，受過訓練(僅感知訓練)智慧體，受過訓練(解析訓練和感知訓練)的智慧體三者的實驗情況，衡量的標準是在滿足正確的任務規範之前，需要進行的詢問的問題的個數，實驗顯示受過訓練(僅感知訓練)智慧體表現較差，可能是由於對話中的許多形容詞和名詞的屬性沒有及時更新。

上表比較初始智慧體，受過訓練(僅感知訓練)智慧體，受過訓練(解析訓練和感知訓練)的智慧體三者的實驗情況，衡量的標準是使用者對智慧體表現的定性的評價，主要包括：我將使用這樣的機器人來幫助導航到一棟新樓；我將會用這樣的機器人為自己或其他人拿取東西；我將會用這樣的機器人來將物品從一個地方移到另一個地方。實驗顯示受過訓練(解析和感知)的智慧體的表現最好。

該研究提出了一種機器人智慧體，其可以利用與人類的對話來擴充套件自定義的小型化的語言理解資源，利用這些資源既可以將自然語言命令翻譯為抽象的語義形式，又可以將物理物件的抽象屬性接地。在這項工作中，機器人可以執行的動作可以分解為離散語義角色的元組，但是通常，他們需要推理更多的連續動作空間，並獲取新的、與人類對話中看不見的行為和知識。該研究中的智慧體可以從人機對話中學習知識，甚至可以處理複雜的形容詞和名詞之間的依賴和上下文關係。

3、基於視覺和觸覺資訊的機器人抓取

Connecting Touch and Vision via Cross-Modal Prediction

【摘要】人類使用視覺、聽覺和觸覺等多種模式的感覺輸入來感知世界。在這項工作中研究了視覺和觸覺之間的交叉模式連線。跨模態建模任務的主要挑戰在於兩者之間在比例上存在顯著差異：雖然我們的眼睛一次性就可以感知到整個視覺場景，但人類在任何給定時刻只能觸碰感覺到物體的一個小部分。為了連線視覺和觸覺，文中合成來自視覺輸入的合理的觸覺訊號，以及想象我們如何與以觸覺資料作為輸入的物件進行互動。為了實現該目標，研究人員首先為機器人配備了視覺和觸覺感測器，並收集了相應視覺和觸覺影象序列的大規模資料集。為了縮小規模差距，研究中提出了一個新的條件對抗模型，該模型結合了觸控的規模和位置資訊。人類的感知研究表明，本文中的模型可以從觸覺資料中產生逼真的視覺影象，反之亦然。最後，展示了有關不同系統設計的定性和定量實驗結果，以及可視化了模型的學習表示。

文中提出了一種跨模態預測方法，用於從觸控預測視覺，反之亦可。研究人員首先將觸覺中的程度、規模、範圍和位置資訊結合在模型中。然後，使用資料平衡的方法多樣化其結果。最後，通過考慮時間資訊的方法進一步提高準確性。

研究中的模型基於pix2pix方法，是一個用於影象到影象任務的條件GAN框架。在任務中，生成器接受視覺影象或觸覺影象作為輸入，並生成一個對應的觸覺或視覺影象。而判別器觀察輸入的影象和輸出的影象。在訓練中，對判別器進行訓練，以分辨合成圖片和真實圖片之間的差異，而生成器則是用於產生可以欺騙判別器的圖片。在實驗中，研究人員使用視覺-觸覺影象對訓練模型。在從觸覺還原視覺的任務中，輸入觸覺影象，而輸出是對應的視覺影象。而在視覺預測觸覺的任務中，則輸入和輸出對調。

模型使用編碼器-解碼器架構用於生成任務。在編碼器上分別使用兩個ResNet-18模型用於輸入影象（視覺或觸覺影象）和參考的視覺-觸覺影象，將兩個編碼器的向量合併為一個1024維向量，將其輸入解碼器。解碼器包括五層標準的卷積神經網路，並在編碼器和解碼器間加入了跨層連線，研究中使用的判別器為ConvNets。

研究發現，實驗結果不是很好，圖片中有嚴重的視覺偽影，並且生成的結果與輸入訊號不一致。為解決上述問題，研究人員對基本演算法進行修改和完善。首先將觸覺和視覺參考影象提供給生成器和判別器，以便該模型只需要學習為交叉模式變化建模，而不是整個訊號。其次，為防止模式崩塌，研究人員採取資料重均衡策略幫助生成器生成不同的模式，效能更加健壯。最後，從輸入視訊的多個相鄰幀而不是僅從當前幀中提取資訊，從而產生時間相干的輸出。

研究人員在一個KUKA機械手臂上放置GelSight感測器，機械臂背面的三腳架上安裝了一個網路攝像頭，以捕捉機械臂觸控物體的場景視訊，實驗中讓機械臂去戳弄不同的物體。GelSight表面有一層薄膜，在接觸物體的過程中會發生形變，進而採集到高質量的觸覺資料。研究團隊總共記錄了195件物品的12000次觸碰，這些物品屬於不同類別。每個觸控動作包含一個250幀的視訊序列，產生了300萬視覺和觸覺成對的影象的資料集—VisGel。根據此資料集，當模型辨認到接觸位置的形狀和材料，與參考影象進行比較，以識別觸控的位置和範圍。

上圖是本文模型和其他基線模型實驗結果的視覺化對比，該模型可以更好地根據視覺資訊預測物體表面的觸覺資訊，也能夠更好地根據觸覺資訊還原影象表面。

上圖是從視覺到觸覺的量化評測結果。a圖的評價指標是測試機器人是否已經認知到觸摸了物體表面的錯誤數。b圖的評價指標是根據影象還原觸覺點位置的失真錯誤情況。本文中的模型表現優於其它模型。

上圖是從視覺還原觸覺的情況，其中顯示了標記隨時間的變形，該變形由所有黑色標記的平均位移確定，較高的變形意味著物體以較大的力接觸。下圖是根據影象還原的觸覺點陣資訊，為便於增強視覺化的效果，圖片中的標記的運動以紅色放大。

該項工作提出了在視覺和觸覺與條件對抗網路之間建立聯絡。當與外界互動時，人類非常依賴視覺和觸覺的感官方式。該模型可以為已知物體和未知物體進行跨模態的預測。研究人員認為在將來，視觸交叉的模式可以幫助視覺和機器人技術應用，例如在弱光環境下的物體識別和抓取以及物理場景理解。

相關文章：

1.Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention;

2.Vision-based grasp learning of an anthropomorphic hand-arm system in a synergy-based control framework;

3.Visual Curiosity: Learning to Ask Questions to Learn Visual Recognition;

4.Vision-based grasp learning of an anthropomorphic hand-arm system in a synergy-based control framework.

Reference

1.Google AI Blog: Grasp2Vec: Learning Object Representations from Self-Supervised Grasping;

2.Improving Grounded Natural Language Understanding through Human-Robot Dialog;

3.Connecting Touch and Vision via Cross-Modal Prediction.

論文地址：在公眾號「3D視覺工坊」，後臺回覆「Robot Learning」，即可直接下載參考文獻三篇文章。

本文僅做學術分享，如有侵權，請聯絡刪文。

下載1

在「3D視覺工坊」公眾號後臺回覆：3D視覺，即可下載 3D視覺相關資料乾貨，涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲後處理、多檢視幾何等方向。

下載2

在「3D視覺工坊」公眾號後臺回覆：3D視覺github資源彙總，即可下載包括結構光、標定原始碼、缺陷檢測原始碼、深度估計與深度補全原始碼、點雲處理相關原始碼、立體匹配原始碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計原始碼彙總等。

下載3

在「3D視覺工坊」公眾號後臺回覆：相機標定，即可下載獨家相機標定學習課件與視訊網址；後臺回覆：立體匹配，即可下載獨家立體匹配學習課件與視訊網址。

重磅！3DCVer-學術論文寫作投稿交流群已成立
掃碼新增小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流群，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬體選型、學術交流、求職交流等微信群。
一定要備註：研究方向+學校/公司+暱稱，例如：”3D視覺+ 上海交大 + 靜靜“。請按照格式備註，可快速被通過且邀請進群。原創投稿也請聯絡。
▲長按加微信群或投稿
▲長按關注公眾號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的演算法工程人員進行技術指導。與此同時，星球將聯合知名企業釋出3D視覺相關演算法開發崗位以及專案對接資訊，打造成集技術與就業為一體的鐵桿粉絲聚集區，近2000星球成員為創造更好的AI世界共同進步，知識星球入口：

一文帶你瞭解基於視覺的機器人抓取自學習(Robot Learning)

學習3D視覺核心技術，掃描檢視介紹，3天內無條件退款
圈裡有高質量教程資料、可答疑解惑、助你高效解決問題
覺得有用，麻煩給個贊和在看~

一文帶你瞭解基於視覺的機器人抓取自學習(Robot Learning)

一文帶你瞭解.Net基於Threading.Mutex實現互斥鎖

從0到1一文帶你瞭解分析分散式事務

一文帶你瞭解單例設計模式

一文帶你瞭解什麼是Zuul閘道器

一文帶你瞭解 C# DLR 的世界(DLR 探祕)

做java這麼久了居然還不知道JSON的使用(一文帶你瞭解)

一文帶你瞭解Sql優化

一文帶你瞭解兩種Transformer文字識別方法

一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

一文帶你瞭解vue3.0響應式

泡沫股價、外賣小哥要失業了？測試員還要不要進美團？一文帶你瞭解背後真相

一文帶你瞭解JavaScript垃圾回收機制

一文帶你瞭解JavaScript基礎之深拷貝和淺拷貝

一文帶你瞭解什麼是GitOps

綜述：一文帶你瞭解情感分析的方法有幾種

一文帶你瞭解圖和圖分析

一文帶你瞭解知識圖譜融入預訓練模型哪家強？九大模型集中放送

一文帶你瞭解Python Socket 程式設計

如何保證同事的程式碼不會腐爛？一文帶你瞭解阿里巴巴 COLA 架構

一文帶你瞭解基於視覺的機器人抓取自學習(Robot Learning)

學習3D視覺核心技術，掃描檢視介紹，3天內無條件退款圈裡有高質量教程資料、可答疑解惑、助你高效解決問題覺得有用，麻煩給個贊和在看~

相關推薦

學習3D視覺核心技術，掃描檢視介紹，3天內無條件退款
圈裡有高質量教程資料、可答疑解惑、助你高效解決問題
覺得有用，麻煩給個贊和在看~