1. 程式人生 > >高明!OpenAI提出HER演算法,AI系統學會從錯誤中學習

高明!OpenAI提出HER演算法,AI系統學會從錯誤中學習

失敗是成功之母:HER有自我審視能力

最近幾個月,OpenAI的研究人員集中精力於構建具有更強的學習能力的人工智慧。得益於他們的增強學習系統OpenAI baselines,機器學習演算法可以進行自主學習。目前,這個新的演算法保證人工智慧可以像人類一樣從自己的錯誤中汲取教訓

這個進步源於OpenAI的研究人員在近期公佈的名為“後見之明經驗復現(Hindsight Experience Reply, HER)”的開源演算法。正如名字所示,HER幫助人工智慧系統在完成一項任務後,具有自我審視的能力。OpenAI的部落格中提到,人工智慧認為失敗乃成功之母。

以下是視訊介紹:

69833d700ed09195664db839cf5516892ca0589f

研究人員寫到:“構建HER的關鍵在於利用人類的直覺:在實現某個任務時,雖然我們沒有成功,但是在這個過程中我們學到一些不一樣的東西,既然如此,為何不能將我們最終學到的知識作為我們最初的目標呢?“

簡而言之,這意味著每一次失敗的嘗試都是為了實現一個意想不到的“虛擬”目標,而非既定目標。

回想一下你學騎單車的經歷,在最開始的幾次嘗試中,你無法掌握平衡。但是這些經驗告訴了你怎麼騎車是不正確的,怎麼做不能保持平衡。就像在人類的學習過程中,每一次的失敗讓我們距離成功更進一步。

獎勵每一次失敗,並且失敗也不沮喪

通過使用HER,OpenAI希望他們的人工智慧系統可以利用上述的方法來學習。與此同時,這種演算法也被作為增強學習模型中的獎勵機制的替代演算法。為了訓練人工智慧,使其具有獨立的學習能力,它需要包含一個獎勵機制:如果人工智慧演算法達到了預期目標,就可以得到一個小獎勵,就像獎勵給小孩子一塊奶油餅乾一樣,否則就什麼都得不到。另外一個系統根據人工智慧距離預期目標的距離來給出獎勵。

但是這兩種演算法並不是完美的。第一個演算法會阻礙學習,因為一個人工智慧演算法在訓練過程中要麼得到獎勵,要麼沒得到。另一方面,根據IEEE Spectrum報道的內容顯示,第二系統在實現時,需要衡量與目標的距離並給出獎勵,這個過程是很需要技巧的。如果把每一個任務都當作是後見之明的目標,即使人工智慧系統沒有完成指定的任務,HER也會提供一個獎勵。這樣幫助人工智慧更快更好地學習。

OpenAI 在他的的部落格中提到:“通過進行這種獎勵機制的替換,強化學習演算法在實現某些目標後會獲得一個學習訊號,即使這個學習任務不是它最初希望實現的。如果重複這個過程,系統最終可以實現任意的目標,包括最初的既定目標。

7b8e2aebc954eafb5b461608f22a03a2fbcf6014

這種方法並不意味著使用HER方法可以完全簡化人工智慧系統學習某個任務的過程。研究者表示:“在機器人上使用HER進行學習仍然很難實現,因為這個過程需要大量的資料“。

無論如何,正如OpenAI的模型所顯示的,HER有助於鼓勵人工智慧系統像人類一樣從錯誤中學習,兩者的主要區別在於人工智慧在面對失敗的時候不會像一些脆弱的人類那樣傷心沮喪。