動作捕捉系統用於模仿學習
近年來,隨著機器人研究的不斷髮展,需要機器人實現的功能越來越多,對應的行為也越來越複雜,簡單的運動控制已經不能滿足需求,尤其是對於一些不易獲取運動規律的任務,傳統控制方法根本無法實現。這要求機器人具備更高的學習能力,可以與環境形成動態互動以應對未知情況。
Ananalytical diabolo model for robotic learning and control
原文連結:https://ieeexplore.ieee.org/abstract/document/9561578
利用機器學習可以解決解決機器人應用問題,即可以在傳統方法失效時找到有效策略完成任務。機器學習演算法可以分為三大類:有監督學習、無監督學習和強化學習。其中強化學習往往被用來處理複雜的決策任務,但是往往決策空間巨大,強化學習需要不斷地試錯,因此樣本複雜度往往很高,從而限制強化學習在一些場景的應用。
Ananalytical diabolo model for robotic learning and control
原文連結:https://ieeexplore.ieee.org/abstract/document/9561578
而強化學習的一個分支-模仿學習則是直接從專家樣本中學習,由於有比較高質量的決策行為資料,模仿學習(Imitation Learning)被認為是可以降低樣本複雜度的一個手段。模仿學習又被稱作示教學習(Learning from Demenstration),通過示教者的動作和編碼迴歸得到一條優化的機器人軌跡。模仿學習時示教者根據任務要求進行軌跡示教,並通過相應的方式記錄示教軌跡。
模仿學習可以分為以下過程:人類進行示教,機器人獲取示教軌跡資料,利用學習模型進行理解,得到控制策略,然後機器人作為執行器控制運動再現行為,實現運動技能學習。[1]
原視訊連結(來源於YouTube):https://www.youtube.com/watch?v=hD34o3DGYcw
行為獲取-獲得示教軌跡資料後,首先需要進行預處理,進行運動分割、降維、濾波、特徵提取等處理,將預處理後的資料作為學習模型輸入,為編碼做準備。
行為表述-行為表述即為編碼過程,研究如何將觀察到的示教行為對映到機器人系統上,有效的表述方法需要具備一定的泛化能力和魯棒性,能把學習到的能力應用在新環境中,並且具有一定抗干擾的能力。
行為再現-對於機器人模仿學習,需要評估模仿效能的度量。然後通過底層運動控制,將學習到的控制策略對映到機器人的執行器空間,實現真正意義的可再現。
模仿學習中,示教資料(運動軌跡)的獲取是訓練模型的基礎,在研究中採集示教資料的途徑主要有三種[2]:
1)拖動示教。拖動示教是通過人實際移動機器人完成所需動作來進行演示。過程中的狀態資訊(比如關節角度和扭矩等)通過機器人的機載感測器記錄,從而為機器學習模型生成訓練資料。這種方法比較直觀,對使用者要求也較低,在輕型工業機器人場景中使用廣泛。但是這種方法的演示質量取決於操作者動作的靈活性和流暢性,即使是專家操作者操作獲取的資料也需要平滑或其他後處理。此外受到形態因素限制,這種方式對機械臂最有效,但是在其他平臺(比如腿式機器人或靈巧手等)使用拖拽示教的難度較大。
2)遙操作。遙操作是另一種演示方法,可以用於軌跡學習、任務學習、抓取或者更高階的任務。遙操作需要通過手柄、圖形介面或者其他方式向機器人提供外部輸入。目前已存在多種互動裝置(比如觸覺裝置或VR互動裝置等)。與拖拽示教不同,遙操作不需要使用者與機器人在同一現場,可以遠端實現。遙操作的侷限性包括需要開發輸入介面等額外工作、需要更長時間的使用者培訓過程以及外部裝置帶來的可用性風險。
3)被動觀察。被動觀察主要是機器人通過觀察演示者動作進行學習。演示者利用自己的身體完成任務,利用外部裝置捕捉演示者的動作(演示者身體或操作的目標物)資料,其中最有效的資料獲取方式為被動式光學動作捕捉。機器人在此過程中不參與任務執行,只是作為被動觀察者。這種方式對於演示者最為輕鬆,對於演示過程不需要任何訓練。這種方式也適用於具有多自由度的機器人以及非擬人機器人(這些場景很難使用拖拽示教方法)。這種方法需要將人類動作對映到機器人可執行的動作,其中存在的困難包括演示過程中的遮擋、快速移動和感測器噪聲等。
原視訊連結(來源於YouTube):https://www.youtube.com/watch?v=z8SfRrUvQ_4
NOKOV度量動作捕捉系統採用被動紅外光學原理,通過捕捉貼上在人體軀幹(或操作的目標物)上的反光標誌點來獲取運動資料。NOKOV動作捕捉系統的定位精度高,靜態重複精度達到0.037mm,絕對精度可以達到0.087mm,直線動態軌跡誤差可以達到0.2mm,圓弧軌跡誤差0.22mm[3]。此外NOKOV度量動作捕捉系統在滿解析度情況下的取樣頻率最高可以達到380Hz,滿足對高運動速度演示進行資料採集的需求。NOKOV工程師有5年以上的專案經驗,對於不同的場地情況可以給出定製化方案,使實驗過程中的遮擋影響降到最小。
目前國外研究模仿學習知名的機構,比如瑞士聯邦理工學院(EPFL)的LASA實驗室、義大利技術研究院機器人實驗室、德國達姆施塔特大學Prof. Jan Peters團隊等,都使用了動作捕捉系統作為獲取示教軌跡資料的重要手段。
Arm-hand motion-force coordination for physicalinteractions with non-flat surfaces using dynamical systems: Toward compliantrobotic massage
原文連結:https://ieeexplore.ieee.org/abstract/document/9196593
動作捕捉應用於示教學習案例舉例
哈爾濱工業大學-3C裝配任務精確控制
研究人員通過模仿學習方法提出一種有效的離線程式設計技術以實現3C裝配線的自動化[4]。該過程包括兩個階段,第一階段,NOKOV度量光學動作捕捉裝置用於捕獲在裝配過程中人手的位姿資訊;第二階段,通過學習這些演示資料設計機器人控制策略,首先利用基於密度的空間聚類啟發軌跡分割演算法和基於區域性離群因子的異常點檢測演算法對演示資料進行預處理,然後從已處理的資料中通過基於高斯混合模型的概率學習策略學習人類裝配技能,從而驅動機器人在新環境下完成相同的裝配任務。
演示資料由NOKOV度量光學動作捕捉裝置獲得,該平臺能夠跟蹤貼上在操作人員手上的三個反游標記點,操作簡單,可以直觀記錄人工裝配動作,並借用強化學習的框架提出一種迭代路徑優化技術。研究通過演示一條簡單的拾取-放置(pick-and-place)裝配路徑驗證了迭代路徑優化策略的有效性。
重慶郵電大學-基於模仿學習手術機器人縫合技能建模方法
手術輔助機器人可以幫助外科醫生克服傳統手術在操作精度、工作空間、距離和協同工作等方面的難點。為了讓手術機器人系統實現像醫生一樣高質量的自動化操作,一項重要的基礎工作是建立手術操作模型。
為此,重慶郵電大學的楊德偉老師團隊以淺表組織縫合為建模物件,進行了縫合技能學習和建模研究[5]。為了獲取醫生縫合手術演示過程中的資料,研究人員建立了一套縫合手術演示採集系統。
系統包含一套NOKOV度量動作捕捉系統、手術鉗、縫合針、線和傷口模型。根據DMPs方法將動作捕捉系統採集到的軌跡資料分為幾個動態過程,利用示教者的操作軌跡資料去訓練DMPs模型,最終驗證了該方法對縫合過程的建模能力和對新場景的適應性。
武漢大學-軌跡預測
武漢大學的軌跡預測相關研究,以球狀飛行物體為研究物件,研究內容包括運動目標的實時識別、定位與軌跡預測,通過搭建LSTM網路模型,對模型進行訓練和測試,解決了球狀飛行物體的識別與定位以及軌跡預測問題[6]。
實驗採用Kinect深度相機和8鏡頭NOKOV度量動作捕捉系統方案搭建系統硬體平臺,採用 ROS系統作為機器人的軟體平臺,並對系統進行標定。標定物件包括包括 Kinect 深度相機的內參標定,以及 Kinect 與 NOKOV 度量動作捕捉系統的聯合標定。
運動目標識別採用基於混合高斯模型的背景差分法對運動目標進行識別,對運動目標進行相平面定位以獲取對應畫素點的點雲資訊,採用高斯牛頓法擬合點雲質心獲取運動目標的空間座標,結合卡爾曼濾波對質心運動軌跡進行優化。
實驗中,研究人員採用基於 RNN 的運動目標軌跡預測方法,利用NOKOV度量動作捕捉系統採集1000條運動目標完整運動軌跡,並將資料集80%的軌跡序列用於訓練,20%的軌跡序列用於測試。最後將所搭建網路應用於不規則運動目標乒乓球拍的軌跡預測中,證明了所搭建網路的泛化能力。
實驗中,研究人員採用基於RNN 的運動目標軌跡預測方法,利用NOKOV度量動作捕捉系統採集1000條運動目標完整運動軌跡,並將資料集80%的軌跡序列用於訓練,20%的軌跡序列用於測試。最後將所搭建網路應用於不規則運動目標乒乓球拍的軌跡預測中,證明了所搭建網路的泛化能力。
參考文獻:
[1]於建均,門玉森,阮曉鋼,徐驄馳.模仿學習在機器人仿生機制研究中的應用[J].北京工業大學學報,2016,42(02):210-216.
[2] Recent Advances in Robot Learning fromDemonstration Harish Ravichandar, Athanasios S. Polydoros, Sonia Chernova, AudeBillardAnnual Review of Control, Robotics, andAutonomous Systems 2020 3:1, 297-330.
[3] H. Hu, Z. Cao, X. Yang, H. Xiong and Y.Lou, "Performance Evaluation of Optical Motion Capture Sensors forAssembly Motion Capturing," in IEEE Access, vol. 9, pp. 61444-61454, 2021,doi: 10.1109/ACCESS.2021.3074260.
[4] Z. Zhao, H. Hu, X. Yang and Y. Lou,"A Robot Programming by Demonstration Method for Precise Manipulation in3C Assembly," 2019 WRC Symposium on Advanced Robotics and Automation (WRCSARA), 2019, pp. 172-177, doi: 10.1109/WRC-SARA.2019.8931947.
[5] D. Yang, Q. Lv, G. Liao, K. Zheng, J.Luo and B. Wei, "Learning from Demonstration: Dynamical MovementPrimitives Based Reusable Suturing Skill Modelling Method," 2018 ChineseAutomation Congress (CAC), 2018, pp. 4252-4257, doi: 10.1109/CAC.2018.8623781.
[6]楊明輝. 基於迴圈神經網路的運動目標軌跡預測[D].武漢大學,2019.