給你一個 PPO × Family 課程，撐起整個決策 AI 宇宙

阿新 • • 發佈：2022-12-01

序幕

童年經典遊戲

80、90年代出生的人，紅白機總是童年時光重要的記憶片段之一。幾疊遊戲盒，兩個手柄，就可以開啟一整天的歡樂時光，樂此不疲地探索各種紅白機遊戲中的玩法、機制、彩蛋。雖然只是2維平面上的畫素頭小人，雖然只是“上上下下左右左右BABA”這般的簡單按鍵，但依然被玩家們開發出了各種精彩紛呈的決策行為，時至今日，仍然有很多愛好者在挑戰各種諸如“一命通關”，“最速通關”的遊戲記錄：

而隨著時代的發展，遊戲型別也變得五花八門，於是玩家們探索的方式也愈加豐富，各類玩家解說攻略視訊大大加快了遊戲知識的傳播速度，還有一系列基於規則的輔助工具將程式和演算法引入到遊戲探索之中。

最近幾年，人工智慧技術的發展更是大大提升了演算法探索遊戲的極限，從2016年 AlphaGo 在圍棋領域技驚四座開始，再到後續2019年的 AlphaStar、OpenAI Five，以深度強化學習為核心的決策 AI，在這些複雜度和博弈性最頂尖的遊戲中，一次又一次地創造著人工智慧的新高峰。

但其實，這些最前沿的決策與智慧，離我們並不遙遠。比如在很多人的少年時代，玩家們通過個人自身的練習和嘗試，朋友間數不清的討論與琢磨，探索著這些紅白機遊戲中的種種策略，而在當下，其實我們也可以去學習和運用深度強化學習技術，從另一個視角去打造決策智慧，解鎖各種有趣有成就感的遊戲玩法，還可以跳出遊戲的圈子，嘗試應用到各種各樣的日常決策行為，以及各行各業的優化與設計中去。

想象一下，你不僅可以訓練出一個幫你探索遊戲玩法的最佳輔助，又可以擁有一個響應你各種日常指令的機器管家，自主導航和操作完成各種任務。

智慧體在 habitat-sim 環境中按照指令執行任務

基於相似願景，上海人工智慧實驗室 OpenDILab （開源決策智慧平臺）將會設計推出一系列的決策智慧公開課。

首先推出的決策智慧入門級公開課 PPO × Family 由中國計算機學會主辦，上海人工智慧實驗室承辦，全球高校人工智慧學術聯盟、北京大學人工智慧研究院多智慧體中心、浙江大學上海高等研究院、商湯科技協辦，知乎、機器之心、智海平臺、 Paperweekly 支援。順利結課的學員還可獲得由中國計算機學會頒發的課程學習認證證書。

此課程旨在運用一種最經典的深度強化學習演算法 Proximal Policy Optimization (PPO)，解決各種各樣的決策智慧問題，幫助一切對於深度強化學習技術有好奇心的人，輕便且高效地製作應用原型，瞭解和學習最強大最易用的 PPO × Family。在上完這門課程後，如果有進一步興趣的話，受眾可以將所學知識應用到相關領域中，利用更多的計算資源，去追逐和挑戰更強大的人工智慧。

首映

PPO 原本是在2017年由 OpenAI 提出的一種深度強化學習演算法，而在往後幾年中，又有諸多研究者從不同方面給 PPO 添加了許多演算法技巧，時至今日，PPO 已成為最受歡迎的演算法之一。

OpenDILab 總結了各方面研究者們的相關工作，又結合了開源釋出一年來，在40多種決策環境中調優和實踐的經驗和總結，最終凝練而成了這門 PPO × Family 決策智慧入門公開課。

課程大綱

本系列課程將分為8節線上公開課，每節課40-50分鐘。相對於強化學習領域已有的優秀公開課，這門課並沒有選擇自頂向下地講述強化學習發展演變的各個演算法分支，而是自底向上地，從實際應用深度強化學習的角度出發，講述把演算法理論應用到實際決策問題時常用的種種分析方法和優化技巧，通過這門課讓受眾盤清演算法理論，理順程式碼邏輯，玩轉決策AI應用實踐。

其中，第1節課將會通過多重對比來講解決策 AI 問題定義和研究的特殊之處；第2-7節課將會分別以子領域專題的形式，擴充 PPO × Family 的相關成員；最後一節課，將會綜合運用之前累積的各方面知識，去設計和搭建一個“終極”智慧體。

更重要的是，每節課程都會保持“演算法理論-程式碼實現-應用實踐”三合一的講解模式，真正做到知其然（程式碼）又知其所以然（演算法），並學以致用（應用）。

演算法理論公式和程式碼實現的一一對應講解

在 PPO × Family 八節課的過程中，受眾會接觸到各種各樣的決策智慧應用，最終結課時，就相當於完成了自動駕駛、量化交易、機器人控制、遊戲 AI 等多個領域相關決策任務的入門實踐，從而真正做到集中一點，演化出無限可能。

此外，OpenDILab 也特地優化了每節課的實踐任務的計算開銷，整個 PPO × Family 系列課程並不需要大量計算資源，一定配置的個人電腦完全可以應對各種挑戰（當然課程官方也會提供一些免費的計算資源用於備用）。

在上完這門課程後，如果有進一步興趣的話，受眾可以將所學知識應用到相關領域中，利用更多的計算資源，去追逐和挑戰更強大的人工智慧。而且，這門課程也會在每節課佈置一些演算法理論分析的小作業，如果能夠堅持完成並參與討論，可以獲得由中國計算機學會頒發的課程學習認證證書。

課程預告

目前，OpenDILab 已經建立了課程 GitHub 相關倉庫，每一節課程的課件、文字講稿，程式碼，答疑等教學素材都會全部公開在這個倉庫中。而每節課的課程錄影，將會在B站（賬號：OpenDILab）、公眾號平臺（賬號：OpenDILab決策AI）、知乎平臺（賬號：OpenDILab浦策）同步釋出，歡迎保持關注。

PPO × Family 課程 GitHub連結：

https://github.com/opendilab/PPOxFamily

另外，由於剪輯和製作需要，同時響應受眾的需求不斷優化課程內容，我們將會以每1-2週一節課的速度逐漸更新課程內容，也歡迎大家積極參與貢獻，希望能夠真正將知識傳達給有需要的人，共建知識共享的開源社群。

課程第一講（開啟決策 AI 探索之旅）將會在 2022年12月8日正式上線。

感興趣的朋友可新增課程小助手微信（課程小助手微信：OpenDILab），備註「課程」，歡迎大家與我們交流。

References：

[1]https://github.com/Kautenja/nes-py

[2] https://www.bilibili.com/video/BV14d4y1N7KH/?spm_id_from=333.999.0.0

[3] https://github.com/facebookresearch/habitat-sim

給你一個 PPO × Family 課程，撐起整個決策 AI 宇宙

序幕

首映

課程大綱

課程預告

PPO × Family 課程 GitHub連結：

References：

給你一個 PPO × Family 課程，撐起整個決策 AI 宇宙

給你一個億的keys，Redis如何統計？

【LeetCode 力扣 414】第三大的數 ,給你一個非空陣列，返回此陣列中第三大的數。如果不存在，則返回陣列中最大的數。

給你一個區間[t1,t2]，求出從t1到t2之間所有數的約數的個數的和。

給你一個整數陣列 arr，請你幫忙統計陣列中每個數的出現次數

給你一個未排序的整數陣列，請你找出其中沒有出現的最小的正整數

給你一個棧，不使用額外的資料結構，只能使用遞迴函式，逆序這個棧。

問題：給你一個字串s和一個字串p，請問最少去掉s中的多少個字元，才能使得p是s的子串

位元組跳動面試題，給你一個每一項都是數值混亂順序的陣列，只要裡面正確順序的值輸出。如[5,1,3,6,2,7],只要[1,2,7]

python:給你一個字串，你怎麼判斷是不是ip地址？

給你一個反悔的機會

給你一個選擇windows server 2008的理由（工具篇）

MySQL 架構｜給你一個“上帝視角”

給出一個整型集合，求所有非空子集

員工和供應商，撐起了董明珠的手機夢

清華王牌專業建系 70 年，撐起中國半導體半壁江山

教程|教你如何給你的頭像新增一個好看的國旗

6 個珍藏已久 IDEA 小技巧，這一波全部分享給你！

java後端開發三年！你還不瞭解Spring 依賴注入，憑什麼給你漲薪

很多人css數值(百分比|負值)基準分不清，今天給你講講

給你一個 PPO × Family 課程，撐起整個決策 AI 宇宙

序幕

首映

課程大綱

課程預告

PPO × Family 課程 GitHub連結：

References：

相關推薦