1. 程式人生 > >PlaNet,使用圖像輸入來學習世界模型

PlaNet,使用圖像輸入來學習世界模型

ads 技術分享 情況下 多個 動作 tar 帶來 輸入 -i

Google AI團隊與DeepMind合作,上周宣布了一個名為PlaNet的新的開源“Deep Planning”網絡。 PlaNet是一個人工智能代理,它只使用圖像輸入來學習世界模型,並使用這些模型進一步計劃以獲得經驗。

PlaNet可以輕松解決各種基於圖像的控制任務,並與先進的無模型代理商競爭。 Google AI團隊還發布了研究社區的源代碼,以進一步探索和構建PlaNet。

PlaNet如何運作?

PlaNet依賴於隱藏或潛在狀態的緊湊序列。這被稱為潛在動力學模型,其中不是直接從一個圖像預測到下一個圖像,而是首先預測潛在狀態前向。 “通過以這種方式壓縮圖像,代理可以自動學習更多抽象的表示,例如對象的位置和速度,使得更容易預測前進,而不需要一路生成圖像”,Google AI團隊表示。

在隱態動力學模型中,輸入圖像的信息通過編碼器網絡集成到隱態中。然後將隱藏狀態進一步向前預測,以預測未來的圖像和獎勵。對於規劃,將過去的圖像編碼成當前的隱藏狀態,然後預測多個動作序列的未來獎勵。

技術分享圖片

PlaNet代理在不同的基於圖像的控制任務上接受培訓

PlaNet代理經過各種基於圖像的控制任務的培訓。這些任務帶來了不同的挑戰,例如部分可觀察性,用於接球的稀疏獎勵等。此外,訓練單個PlaNet代理來解決所有六個任務。在不對超參數進行任何更改的情況下,此多任務代理能夠實現與各個代理相同的平均性能。

“我們提倡進一步研究,重點是學習更高難度任務的精確動力學模型,例如3D環境和現實世界的機器人任務。我們對基於模型的強化學習開辟的可能性感到興奮“,Google AI團隊表示。

原文來自:https://www.linuxidc.com/Linux/2019-02/156974.htm

本文地址:https://www.linuxprobe.com/planet-ai.html編輯:roc_guo,審核員:逄增寶

PlaNet,使用圖像輸入來學習世界模型