1. 程式人生 > 其它 >Smooth Exploration for Robotic Reinforcement Learning

Smooth Exploration for Robotic Reinforcement Learning

鄭重宣告:原文參見標題,如有侵權,請聯絡作者,將會撤銷釋出!

(Arxiv 2021)

Abstract

  強化學習(RL)使機器人能夠從與現實世界的互動中學習技能。在實踐中,Deep RL中使用的基於步驟的非結構化探索(通常在模擬中非常成功)會導致真實機器人的運動模式不穩定。由此產生的不穩定行為的後果是探索不佳,甚至對機器人造成損害。我們通過使狀態相關探索(SDE)[1]適應當前的深度RL演算法來解決這些問題。為了實現這種適應,我們提出了對原始SDE的兩個擴充套件,使用更通用的特徵並定期重新取樣噪聲,這導致了一種新的探索方法廣義狀態相關探索(gSDE)。我們在PyBullet連續控制任務模擬以及直接在三個不同的真實機器人上評估gSDE:肌腱驅動的彈性機器人、四足機器人和遙控車。gSDE的噪聲取樣間隔允許在效能和平滑度之間進行折衷,這允許直接在真實機器人上進行訓練而不會損失效能。該程式碼可在https://github.com/DLR-RM/stable-baselines3獲得。

1 Introduction

  最早使用人工智慧方法的機器人之一被稱為"Shakey",因為它在操作過程中會晃動很多[2]。搖晃現在在機器人技術中再次變得相當普遍,但原因不同。當通過深度強化學習(DeepRL)學習機器人技能時,事實上的探索標準是在每個時間步驟 t 獨立地從高斯分佈中取樣一個噪聲向量εt,然後將其新增到策略輸出中。這種方法導致了圖1左側所示的噪聲型別,它在模擬中非常有效[3, 4, 5, 6, 7]。

  非結構化探索也已應用於機器人技術[8, 9]。但是對於真實機器人的實驗,它有很多缺點,這些缺點已被反覆指出[1, 10, 11, 12, 13]:1)在每一步獨立取樣會導致不穩定的行為[14],以及嘈雜、抖動的軌跡。2) 不穩定的運動模式會損壞真實機器人上的電機,並導致磨損增加。3) 在現實世界中,系統充當低通濾波器。因此,連續的擾動可能會相互抵消,導致探索不佳。對於高控制頻率尤其如此[15]。4)它會導致很大的方差,隨著時間步數的增加而增加[10, 11, 12]

  在實踐中,我們已經觀察到三個真實機器人的所有這些缺點,包括圖4a中描繪的肌腱驅動機器人David,這是本工作中使用的主要實驗平臺。出於所有實際目的,具有非結構化噪聲的深度強化學習不能應用於David。

  在機器人技術中,已經提出了多種解決方案來抵消非結構化噪聲的低效率。這些包括相關噪聲[8, 15]、低通濾波器[16, 17]、動作重複[18]或更低級別的控制器[16, 9]。一個更有原則的解決方案是在引數空間中進行探索,而不是在動作空間中[19, 20]。這種方法通常需要對演算法進行根本性的更改,並且在引數數量較多時更難調整。

  狀態相關探索(SDE)[1, 11]被提議作為引數空間探索和動作空間探索之間的折衷方案。SDE用依賴於狀態的探索函式替換取樣噪聲,該函式在回合期間返回給定狀態的相同動作。這導致更順暢的探索和每個回合的更少差異。

  據我們所知,目前還沒有Deep RL演算法與SDE成功結合。我們推測這是因為它所解決的問題——搖晃、生澀的運動——在模擬中並不那麼明顯,而這是社群當前關注的焦點。

  在本文中,我們旨在恢復對SDE的興趣,將其作為一種有效的方法來解決在真實機器人上使用獨立取樣的高斯噪聲所產生的探索問題。我們的具體貢獻,也決定了論文的結構,是:

  1. 突出非結構化高斯探索的問題(第1節)。
  2. 使SDE適應最近的深度強化學習演算法,並解決原始公式的一些問題(第2.2和3節)。
  3. 評估關於平滑度和效能之間折衷的不同方法,並顯示噪聲取樣間隔的影響(第4.1和4.2節)。
  4. 成功地將RL直接應用於三個真實機器人:肌腱驅動機器人、四足機器人和遙控車,無需模擬器或濾波器(第4.3節)。