UC Berkeley劉暢流博士:人機互動中的機器人行為設計
2017年底,機器之心介紹了加州大學伯克利分校人工智慧研究所(BAIR)撰文介紹的旗下機械系統控制實驗室(MSC)開發的安全機器人互動系統。該系統可以顯著減少人機協作過程中問題的發生機率。近日,該研究的作者之一劉暢流對部落格中介紹的相關技術發表了演講,機器之心對此演講內容進行了整理。
演講內容整理:
很榮幸回到伯克利和大家分享我在機器人、控制、人機互動方面的研究,以及我們如何設計機器行為,來讓它們在日常的工作居家和娛樂中更好地服務、協助人類,與我們合作。
人機互動(HRI)在許多具有巨大社會經濟影響力的應用領域被認為是未來機器人的核心元素,比如製造業、交通、服務業和娛樂產業。
我首先關注的領域是製造業和交通運輸業。
儘管今天的工廠自動化程度已經相當之高,一些精細的裝配工作仍然廣泛地由人工完成,而且有時成本十分高昂,比如在汽車工業的最終組裝線和電子裝置的組裝線上。
將合作機器人帶進這類工作環境對於幫助人類工人,將他們從單調且精神緊繃的任務中解放出來大有幫助。可以預見,未來的工廠的特點將會是大量的人機協作,尤其是在靈活的組裝線中。
對於工廠,理想的情況是僱傭人機團隊,利用彼此的長處(例如人類的智力與靈活性結合機器人的精確性,力量和可重複性)來創造一個成本節約型、資源有效型的製造業世界。
為實現這一願景,安全問題需要受到極大關注。當然,機器人不該傷害人類。但也不能過於保守,比如像傳統的安全措施那樣,當人類靠近時放慢甚至停止動作。誠然,協作機器人需要與人密切互動。它們的行為應當對人類工人安全,但在完成各種需要高水平智力的工作中保持高效。
我致力於發展機器人行為設計的新方法。我們的工作同時實現了人機協作的安全性和高效性,這將在接下來詳細說明的實驗中演示。
另一方面,自動駕駛汽車的影響已被廣泛討論。發展自動駕駛的一個主要論據在於自動駕駛汽車或許會提高交通系統的安全程度,因為它們可以避免人類的錯誤。
但我們達到那樣的程度了嗎?事實上,很多情況下自動駕駛汽車都過於保守。你們中很多人都看過這個視訊,這輛自動駕駛汽車甚至試圖避讓與它並沒有衝突的車輛。
人類司機會怎樣做?這是我在上海的一箇中型路口拍攝的視訊。沒有左轉彎訊號燈,所以左轉的車輛需要特別小心。然而從不同方向來的人類司機可以做到交替穿插,最大化交通效率,彼此之間只留有很小的間隔。
為使自動駕駛車輛的表現能夠與老司機比肩,我們還有很長的路要走。但是,通過更好地對其行為進行設計,這是有可能實現的。
簡言之,對於協作機器人和自動駕駛汽車來說,要求無非是讓其安全有效地完成工作以及安全有效地行駛到目的地。在一個明確定義的確定的環境中,現今的工藝水平已經可以實現這些需求。但是與其它智慧實體進行互動給系統帶來了大量不確定性,這是讓這些機器人實現需求所面臨的主要挑戰。
我試圖處理的問題就是:在保證安全性的同時,如何設計機器人的行為,使其在動態不確定的環境中表現達到最佳。
在介紹技術細節之前,我們先從理論上深入瞭解下要處理的系統:
人機系統可以模式化為一個多主體的系統,其中所有的智慧實體都被視作一個主體。圖中我們採用一個工業協作機器人的視角,周圍有幾個人類工人。每個實體有其自己的動態(dynamic)。機器人通過行為系統感知環境中所有主體的狀態並控制自己的動作。類似地,所有人類主體擁有五感來感知彼此,基於感受到的資訊決定自己的動作。主體之間高度耦合,使得設計機器人的行為非常困難。具體而言,這個行為系統是一種從(感測器獲取的)資料到(應用於物理裝置的)行為的對映。這種行為通常取決於內在邏輯或策略或控制律,它們會基於對世界的認知模型來優化一個成本函式。考慮到不可預見的情景,機器人被賦予了學習能力來更新知識和邏輯。借用經濟學的概念,我們稱單個主體的行為系統為微觀系統,多主體系統稱為巨集觀系統,這能夠描述人機協作或交通運輸系統。
我的研究聚焦在單個機器人的微觀行為設計以及在巨集觀多主體視角下對設計進行評估。這一方法已被應用於交通運輸和製造業的各種用途。我們運用最優控制、優化理論、以及博弈論解決在方法論層面公式化的數學問題。本次演講會涵蓋微觀行為設計方法和實現設計的最優化演算法,還有它們在自動駕駛及工業機器臂方面的應用。
行為設計
首先,讓我們考慮行為設計問題。
設計機器人行為有很多方法:經典控制方法、自適應控制、演示學習、強化學習、模仿學習,範圍從自然導向到培養導向。
本次演講涉及的系統對安全性的要求都非常嚴格。為了在人機互動過程中保障安全,而允許設計者對機器人行為擁有更多操控的同時,使機器人行為能夠自我適應,我們討論一種自適應最優控制或自適應MPC框架內的方法。在這裡邏輯、學習模組和成本函式被明確設計,而世界模型則在互動中被習得。
因此機器人的內部成本要被設計為有約束優化。成本函式J針對任務表現和動作效率,這取決於機器人狀態,輸入和目標。機器人目標可能與人類狀態相關。
例如,一個典型的成本函式可以被設計為對於目標的範數平方誤差與控制輸入的平方範數二者之和的積分。
第一類約束是物理系統的動態和可行性的限制。
比如,對於一輛自動駕駛汽車,由於其非完整動力學約束(nonholonomic dynamics constraint),它不能產生任意橫向的加速度。
最後的一項,也是最重要的一項約束——互動中的安全性約束。其中,x_h表示人類狀態,R_s是關於人類狀態的安全設定。
安全性約束一般定義為狀態的集合以使人類和機器的最小距離大於某個閾值。
幾何關係被簡化為膠囊(capsule)表示。膠囊的半徑是一個設計引數,人體易受傷害的部分(例如頭部)會被設計擁有更大的半徑範圍。
由於人類的動態對於機器來說是未知的,安全性約束很難處理。甚至對當前人類狀態的測量會有很多噪音干擾。這些不確定性會在長時間中累積,導致機器人的行為十分保守。
為了更好地說明這一挑戰,考慮下面的例子:有一個封閉的環境,機器人試圖躲開人類到達目的地。
在這個例子中,我們引入時間軸,為了更好地描述時空軌跡。
在第一個時間步長中,機器人預測人類的軌跡,且伴有一定的不確定性。人類的軌跡也會取決於機器人的軌跡。
然後機器人規劃一條避開不確定錐形區域的軌跡。隨著時間的推移,這條規劃的軌跡被執行,人類的軌跡也被觀測。軌跡和不確定度在時間—擴充套件空間(time-augmented space)以及2維空間中都有展示。
到了下一個時間步長,機器人重複這一過程,預測人類軌跡,規劃自己的軌跡然後執行。
這一過程不斷反覆。
這就是傳統的模型預測控制方法(MPC),它十分安全,但過於保守。機器人面對人類行為的不確定性非常恐慌,不敢繼續靠近。
為什麼會這樣?
讓我們回顧一下設計的目標和約束。
為了最優化地解決,問題應當放在長時間內來求解,否則系統很可能會陷入區域性的最優。
但是,受到計算能力的限制,長期運動規劃需要更長的計算時間,這意味著更大的積累誤差。而為了安全,機器人的行動會非常保守,這與最優化目標矛盾。
解決這一悖論的一種方式是減輕約束,也就是加快計算並獲得更好的人類行動模型來減少不確定程度。
然而,我觀點是我們可以用將目標分解的方法來解決這一悖論。使用單一的規劃非常難以平衡兩個目標。那麼為什麼不能用兩個不同的規劃器分開處理不同的目標呢?
通過這樣做,一個只對他人行為進行粗略估計的長期規劃器可以用來實現最優化目標,而另一個考慮到所有不確定性的短期響應規劃器可以用來實現安全性目標。
我把長期規劃器稱為效率控制器,把短期規劃器稱為安全控制器。他們可以以分級控制的形式實現組合。
用之前的例子來闡明這一想法。
對於長期的規劃,機器人粗略地估計人類的軌跡並規劃一個忽略預測的不確定度的路線。接下來這個路線會在安全控制器中作為參考。
在第一個時間步長中,機器預測人類行動並檢查執行長期路線是否安全。如果安全,路線就被執行。在下一個時間步長中,一旦路線不再安全,短期規劃者便通過繞道修改路線。
與此同時,效率控制器生成另一個長期規劃覆蓋掉之前的規劃。安全控制器則監控新的參考軌跡。當能夠安全執行時,機器就執行這一軌跡,最終達成目的。
這一模型並不保守。而且因為它有長期計劃的模組,避免了多數短期或區域性規劃者可能存在的區域性最優問題。此外,不確定性也得到了處理。
(效率控制器類似於人類行為中的慎重思考過程, 而安全控制器類似於不經過大腦的快速反應行為。)
當然,這兩個規劃者以不同的頻率執行。計算中的時間流程如上圖展示。首先,一個參考軌跡被髮送到安全控制器進行監測。圖中兩條時間軸的上半部分展示了規劃者的計劃時間(Planning horizon)長短,下半部分顯示了需要的計算時間(Computation time)。安全控制器中的計劃時間並不必須是一個時間步長。
在安全控制器監測軌跡的時候,效率控制器在計算一個新的長期軌跡。計劃時間範圍在黃框中顯示。因為計劃時間變長,相應的計算時間要比安全控制器中的計算時間長。一旦計算出了新的軌跡,它將被髮送到安全控制器被監視。然後效率控制器計算另一條軌跡,以此類推。
這一方法可以被視為雙層的MPC,利用了長期和短期規劃兩者的優勢。
這裡提供一些實驗資料:效率控制器一般以1hz的頻率執行,而安全控制器一般以100hz到1khz的頻率執行。
儘管如此,這個分級結構的穩定性非常關鍵。雖然在模擬和試驗演示中是穩定的,但我們目前正在研究這一問題的數學證明。
同時,這種並行控制結構的成功實現高度取決於計算能力,也就是最優化演算法能否在取樣時間內找到安全可行的軌跡,尤其考慮到這一問題還是高度非線性且非凸的。
為了處理計算問題,我們通過凸化,在安全控制器和效率控制器的計算中開發了非凸最優化演算法。
安全集合演算法(Safe Set Algorithm)採用了不變集的概念,將非凸的狀態空間的約束轉換到凸輸入空間的約束。通過可達性分析和類Lyapunov函式的應用,我們已經證明了軌跡永遠不會超出安全集合,因此安全性得以保證。
凸可行集演算法(Convex Feasible Set Algorithm)利用原始問題獨特的幾何特徵,直接將非凸最優問題轉化為一系列凸的子問題,這一點將會在後面詳細討論。
除了兩個規劃者之外,實際的系統要複雜的多。如圖中所示包括3層,代表三種不同能力:看、想、做。
機器首先通過視覺獲取環境資訊。一個感知模組會對點雲測量的系統狀態進行估算。給定估算的當前狀態,其它主體未來的軌跡將基於模型被預測。
模型通過線上和線下學習兩種方式獲得——線下學習確定了模型結構,線上學習通過調整模型引數來適應個體差異以及時變行為。
預測將被髮送到用於計劃的並行規劃者。兩個規劃者優化了成本函式J,它們的計劃時間長短和更新頻率不同。
最後,給出考慮到機器動力學的規劃路徑後,一個低級別調節器會向物理裝置生成控制命令。
設計評估
微觀設計在製造業及交通運輸領域的各種人機平臺已被廣泛地評估過。首先,我將展示工業機器人的一些結果。
為了在演算法開發的初期保護受試物件,我們發展了不同種的評估平臺,從虛擬現實模擬到人偶機器互動再到最終的人機互動。
在基於虛擬現實的模擬平臺中,人類一方與一個虛擬機器器人進行互動,通過虛擬現實顯示屏觀察機器的行動,人類的行動則靠攝像頭捕捉。
在這種情境下,機器需要追蹤由一個端點到另一個端點的紅顏色參考軌跡。執行的軌跡顯示為藍色。當人類靠近時,機器人的行為就服從人類。當人類離開時,機器則試圖前往目的地。
現在我們將硬體納入其中。在人偶-機器人互動平臺中,實體機器人與一個被遠端操控的人偶進行互動。 在這個視訊中,受贊助商的要求,我們遮住了裡面的機器臂。
我們要求這個機器人將那個黑色的工件左右來回移動,同時人偶在該機器人的工作區中四處運動。這個人偶所帶來的干擾是一種極端案例,在實際生產線上可能不會經常發生。但在視訊演示中我們可以看到,我們設計的行為系統能讓機器人在這樣的極端情況中也能安全有效地完成任務。
在第三個平臺中,環境更為動態,其中機器人的任務是將工件放入運動的目標盒子中,同時還要避開障礙物。
這個拾取與放置任務可以看作是人機協作組裝的一種抽象形式。其中機器人可以給人類遞送工具,人類的手接收工具,這裡用綠色的目標盒子表示。另一隻人手可以被看作是障礙物。
視訊的左邊部分給出了機器人通過 Kinect 感知的環境。黃色軌跡是計算得到的長期規劃。機器人有時候會遵循這個軌跡,有時候則不會遵循,因為短期規劃器會為實時安全性而修改這個軌跡。
需要指出,與 UR5 等其它協作機器臂不同,我們使用的是之前用在重型、重複性和確定性的生產線任務中的機器人。這是首次將它們用在這樣的互動式和高隨機性的任務中。
但在實驗過程中,這個機器人的反應非常靈敏,並且很安全,甚至能補償感知中的不確定性。這是因為其中採用了並行規劃結構和快速線上優化求解器。
此外,與障礙物之間的間距和平均速度等機器人行為也可以通過調節該優化問題中的引數進行調整,也就是說可以重新設計知識模組中的內部成本函式。通過納入使用者反饋,可以使用強化學習自動和直觀地執行這個調整過程。
然後我們再往前一步:真正的人類-機器人互動。
視訊中是我的同事。我在幕後拿著一個緊急制動按鈕,以防發生意料。
但實驗非常順利並且改變了大家對這些冰冷、笨重和危險的工業機器人的印象。現在它們對人類很友好,行動敏捷,反應靈敏,同時仍然有很高的生產效率。
我們在去年四月底的 Cal Day 上演示了這一成果,這是伯克利的一個開放日活動。我們的演示吸引了很多不同背景的人,尤其是孩子。他們喜歡和這個機器人玩,把目標盒子在桌子上動來動去。他們很高興地發現這個機器人仍然能知道盒子在哪裡並且能把工件放在正確的地方。
最後一張圖還揭示了使用 AR 標籤進行感知的技巧。
自動駕駛
同樣的設計也可應用於自動駕駛汽車。
在這個專案中,我們與 Denso 進行了合作。
我們的設計使得自動駕駛的汽車既能夠進行全域性規劃,又能夠及時對緊急情況作出反應。
就像視訊中演示的那樣,及時避開急停的前車。
我們的設計還能讓自動駕駛汽車在低速移動的車流中安全地保持一個較大的參考速度。
優化問題
正如我們之前提到的那樣,線上優化成本函式並不是一項簡單任務,因為這個問題是高度非線性和非凸的。為了實現快速的線上運動規劃,我們開發了全新的優化演算法,能夠利用該問題的幾何特徵。
這個最優控制問題構建在連續的時間中。為了利用數值演算法,我們將連續軌跡進行了離散化處理,得到了離散軌跡。然後原有的連續時間最優控制問題就轉化為了一般的非凸優化問題。
(在符號方面,我們現在使用 Γ 來表示在狀態軌跡上的約束,Ω表示在輸入軌跡上的約束,函式 G 表示非線性的動態過程。)
一般而言,可使用序列二次規劃(SQP)方法求解非凸優化問題,即迭代式地求解一個二次子問題。這個二次子問題是通過拉格朗日的二次近似和所有約束的線性化獲得的。
但是,SQP 方法難以實現實時性,因為這是一種通用方法,忽略了運動規劃問題特有的幾何結構。
這個優化問題有兩個幾何特徵。第一個是控制輸入(control input)中的對稱性,因為成本函式通常的設計原則是為了懲罰控制輸入的幅度而且控制輸入的約束通常有對稱的下限和上限。第二個特徵是仿射動態(affine dynamics),也就是控制輸入不會進入等式約束的非線性部分。
有了這樣的理解,我們就能在一個簡化的 3D 空間中闡述這個問題的幾何性質了。其中水平的平面表示狀態的軌跡所在的空間,垂直軸表示控制輸入的軌跡所在的空間。
這個非線性等式約束定義了一個非線性流形。由於狀態空間約束 Γ,這個流形被去除了幾個洞。這些洞是Γ 的補集。
該流形中展示了成本函式的輪廓。儘管成本函式是凸的,但由於流形是非線性的,所以在該流形上的輪廓是非凸的。在非線性的流形上求解是很困難的。
因為這個問題是對稱的和仿射的,所以我們能不能在這個流形之上的體積中求解呢?不同於流形,這個新搜尋空間的結構是線性的,且該體積中的成本是凸的。
而且還有一個好處,由於成本函式的對稱性,假設水平面是 u=0 的平面,如果我們沿 u 軸的負方向移動,成本就會下降。因此這個體積中的最優解總是位於該體積的底部;也就是說:如果我們在該體積中執行優化演算法(比如梯度下降),那麼優化機制就會自動將解拉到底部,自動滿足這裡的非線性等式約束。
為了進一步加快計算速度,通過將域限制到非凸域中的凸可行集上,這個問題可以被轉換成一個凸優化問題。
當然,為了降低由凸化引入的誤差,就需要迭代。
現在,我們用下面這個簡化的問題來說明鬆弛後的問題的迭代過程,其中決策變數被簡化到了只有 x。成本函式是凸的,而域是非凸的。
對於參考軌跡,我們在非凸域中計算一個凸可行集並在該凸可行集求解這個優化問題。如果解不收斂,我們就重複這個過程。否則我們就輸出這個解。
我們用下面的例子說明這個想法,其中高維軌跡空間進一步簡化成了一個 2D 空間。圖中給出了成本函式和障礙的輪廓。給定一個參考點,可計算出凸可行集,如該參考點附近的紅色多邊形所示。如果參考軌跡本身是可行的,那麼這個凸可行集就包含了這個軌跡。如果這個參考點不可行,也可以計算得到凸可行集,但參考軌跡不會在該集合內。
在迭代中,我們可以將凸可行集中的最優解設為新的參考並重復這一過程,尋找另一個凸可行集和求解新的凸優化。最後我們會到達最優解。
由於每個點對應一個軌跡,所以在笛卡爾空間中,這個迭代過程是這樣的:首先有一個參考軌跡(在這裡是一個不可行的參考),然後這個軌跡會被擾動,並最終能在少數幾次迭代中收斂到黑色的最優軌跡。
我們已經證明這個演算法能保證收斂性和最優性。
CFS(凸可行集)演算法求解軌跡優化的方法與其它一些研究成果有相似之處。
比如由不同作者提出的凸通道(convex corridor)或凸管道(convex tube)思想,他們試圖沿軌跡為每個點找到一個泡(bubble),然後擾動這些泡所形成的通道或管道之中的軌跡。
如果我們在時間增強的軌跡空間中表示一個線性系統的凸可行集,那也會是一個管道。
但是,關鍵的差異在於:在我們的方法中,參考軌跡可以是不可行的。
同時,這個凸管道是最大的,也就是說投射在每個時間步驟上的凸可行集是黎曼度量中最大的凸集。
我們已經提供了在收斂性和最優性上的理論保證;而其它研究只是啟發式地使用了這項技術。
最後,CFS 演算法是一種非凸的優化求解器,可應用於滿足其幾何特徵的任何問題。
CFS 與 SQP 在下列案例上進行了比較,其中機器人需要按順序到達方形區域的四個角,同時避開障礙物。
路徑 1、2、5 沒有碰撞。因此這兩種方法之間沒什麼太大的不同。路徑 3 和 4 是不可行的。SQP 消耗的時間遠遠長於 CFS。
人們可能會說 SQP 本來就很慢。CFS 演算法相對於其它更高效的非凸優化求解器有優勢嗎?
然後我們將 CFS 與 ITP 進行了比較,ITP 是已知的最高效的非凸優化演算法。
在這張圖中可以看到。橫軸是在軌跡上取樣的點的數量,代表了問題的維度。縱軸是計算時間。
當問題的規模很小時,ITP 和我們的方法的表現接近。但是,隨著問題維度增大,ITP 的計算時間會快速暴增,而我們的方法的計算時間只會線性增長。
這是針對 2D 車輛的情況。 機器臂的計算時間會大大延長,因為問題難度更大。
為了更好地說明CFS的優勢,這裡給出了迭代過程中的軌跡。CFS 收斂很快,而且軌跡已經是平滑且可行的了。使用 ITP 方法則需要很多次迭代才能讓軌跡可行以及使軌跡平滑。
總之,CFS 演算法的高效性在於我們通過寬鬆化和凸化而明確地利用了問題的特有幾何結構。這樣造成的一個結果是該演算法的步長是無約束的,因此迭代的次數會大大降低。另一個結果是我們無需在 CFS 中進行線搜尋(line search),因此每次迭代的計算時間也會降低。
最重要的是,當我們直接在可行集中進行搜尋時,其解在收斂之前就能達到足夠好。“足夠好”意味著可行和安全。因此我們在收斂之前就可以安全地終止迭代,然後執行次優的軌跡。
有了實時的優化,人類與機器人之間的互動可以更加順滑。比如,在乘客-車輛互動中,一旦乘客指定了一個停車位,車輛就可以馬上找到一個軌跡到達目的地。這在未來的自動代客泊車上有很大的應用潛力。
多智慧體互動
這就是微觀行為設計。使用這樣的設計有一個重要的問題:該智慧體在多智慧體系統中的表現如何?
看看這個四路交叉口的多車輛互動。這四輛自動汽車同時到達了這個交叉口。誰應該先走是不確定的。
然後其中一輛車決定向前走一點以測試其它車輛的反應。如果其它車輛選擇退讓,那麼它就通過這個路口;否則就停車。如果所有車輛都採用同樣的策略,那麼它們就會同步地向前推進,它們就可能會被困在“前進-停車-前進-停車”的迴圈中,並最終陷入困境。
如果你熟悉博弈論,這就是典型的懦夫博弈(Chicken game)。這個博弈系統中存在多個納什均衡(即多種通過該交叉口的次序),但這些車輛不知道採納哪一個;如果這些智慧體之間沒有共識,那麼就無法通過單純的微觀設計來解決這個問題。
因為這是一個大規模組合優化問題,所以也不可能讓每輛車都求解一個多車輛導航問題以便達成共識。
我們的做法是設計一種特殊的衝突解決機制,能夠實時地在本地解決衝突圖(conflict graph)。通過在之前設計的邏輯上增加衝突解決模組,每輛車上的區域性解都會為該組合優化問題提供一個全域性解,即使這裡的拓撲結構是時變的也可以。
不同於其它採用固定通過順序的衝突解決機制,我們方法中的本地決策會根據實時狀況而改變,從而最大化實時交通效率。
這個方法也可以擴充套件到多車道問題上。研究證明,這種完全分散式的方法在整個時間段內都是動態可行的和穩定的。
未來,我會在應用、方法和工具這三個層面上開展我的研究。具體包括:
· 深入到交通運輸和製造生產的實際應用中,其中包括自動駕駛、車聯網、智慧交通、人機協作、機器人-機器人協作、智慧工廠。
· 將現有設計應用到新問題上,併為新出現的問題開發新的設計方法。
· 在機器人行為的設計上泛化和標準化該方法——尋找適用於各種情況的通用結構以及特定領域的引數;另外還要開發可在各種人機或多機器人系統中評估和比較不同設計的系統性方法。
· 為我們的核心理論和工具開發更高效的優化演算法來加快計算速度。
· 針對現有博弈論在分析次優智慧體和時變系統拓撲上的低效性,在各種細節層次上發展用於理解帶有互動式元件的一般系統的新理論。
人類-機器人系統涵蓋範圍很廣,從人類有最終決策權的系統到機器人有最終決策權的系統。本演講所涉及的只是其中一小部分人類和機器人具有同等決策權的系統。
我有興趣將該設計應用到其它型別的人類-機器人系統中,以及探索新的設計以促進各種場景中的互動,比如人類操作員與遠端操控機器人之間的互動、人類教師與機器人學習者之間的互動、駕駛員和駕駛輔助系統之間的互動、人類和主動式輔助裝置之間的互動、機器人護士與病人之間的互動、乘客與全自動汽車之間的互動。
我們怎樣才能設計出能為我們正確做事而不會失控的機器人?我們如何通過創造這些智慧實體來更好地理解我們自己?這些都是有待解決和解答的問題。機遇與挑戰並存。我想在這樣的研究上貢獻自己的心力,以創造一個和諧融洽的人類-機器人社會。