上海交大發布「人類行為理解引擎」：深度學習 + 符號推理，AI 逐幀理解大片中每個動作

阿新 • • 發佈：2022-03-10

看圖看片，對現在的 AI 來說早已不是什麼難事。不過讓 AI 分析視訊中的人類動作時，傳統基於目標檢測的方法會碰到一個挑戰：靜態物體的模式與行為動作的模式有很大不同，現有系統效果很不理想。

現在，來自上海交大的盧策吾團隊基於這一思路，將整個任務分為了兩個階段：先將畫素對映到一個“基元活動”組成的過度空間，然後再用可解釋的邏輯規則對檢測到的基元做推斷。

△左：傳統方法，右：新方法

新方法讓 AI 真正看懂劇裡的卷福手在舉杯 (hold)，右邊的人在伸手掏東西 (reach for)：

對於遊戲中的多人場景也能準確分辨每一個角色的當前動作：

甚至連速度飛快的自行車運動員都能完美跟隨：

能夠像這樣真正理解視訊的 AI，就能在醫療健康護理、指引、警戒等機器人領域應用。這篇論文的一作為上海交大博士李永露，曾在 CVPR 2020 連中三篇論文。目前相關程式碼已開源。

知識驅動的行為理解

要讓 AI 學習人類，首先要看看人類是怎麼識別活動的。比如說，要分辨走路和跑步，我們肯定會優先關注腿部的運動狀態。再比如，要分辨一個人是否是在“喝水”，那麼他的手是否在握杯，隨後頭又是否接觸杯子，這些動作就成為了一個判斷標準。這些原子性的，或者說共通的動作就可以被看作是一種“基元”（Primitive）。

我們正是將一個個的基元“組合”推理出整體的動作，這就是就是人類的活動感知。那麼 AI 是否也能基於發現這種基元的能力，將其進行組合，並程式設計為某個具有組合概括性的語義呢？因此，盧策吾團隊便提出了一種知識驅動的人類行為知識引擎，HAKE（Human Activity Knowledge Engine）。

這是一個兩階段的系統：

將畫素對映到由原子活動基元跨越的中間空間
用一個推理引擎將檢測到的基超程式設計為具有明確邏輯規則的語義，並在推理過程中更新規則。

整體來說，上述兩個階段也可以分為兩個任務。首先是建立一個包括了豐富的活動-基元標籤的知識庫，作為推理的“燃料”。在於 702 位參與者合作之後，HAKE 目前已有 35.7 萬的影象 / 幀，67.3 萬的人像，22 萬的物體基元，以及 2640 萬的 PaSta 基元。

其次，是構建邏輯規則庫和推理引擎。在檢測到基元后，研究團隊使用深度學習來提取視覺和語言表徵，並以此來表示基元。然後，再用可解釋的符號推理按照邏輯規則為基超程式設計，捕獲因果的原始活動關係。

在實驗中，研究者選取了建立在 HICO 基礎上，包含 4.7 萬張圖片和 600 次互動的 HICO-DET，以及包含 430 個帶有時空標籤的視訊的 AVA，這兩個大規模的基準資料集。在兩個資料集上進行例項級活動檢測：即同時定位活動的人 / 物並對活動進行分類。

結果，HAKE，在 HICO-DET 上大大提升了以前的例項級方法，特別是在稀有集上，比 TIN 提高了 9.74mAP（全類平均精度），HAKE 的上限 GT-HAKE 也優於最先進的方法。在 AVA 上，HAKE 也提高了相當多的活動的檢測效能，特別是 20 個稀有的活動。

通訊作者曾為李飛飛團隊成員

論文的通訊作者是上海交通大學的盧策吾，也是電腦科學的教授。在加入上海交大之前，他在中國香港中文大學獲得了博士學位，並曾在斯坦福大學擔任研究員，在李飛飛團隊工作。現在，他的主要研究領域為計算機視覺、深度學習、深度強化學習和機器人視覺。

一作李永露為上海交通大學的博士生，此前他曾在中國科學院自動化研究所工作。在 CVPR 2020 他連中三篇論文，也都是圍繞知識驅動的行為理解（Human Activity Understanding）方面的工作。

論文：

https://arxiv.org/abs/2202.06851v1

開源連結：

https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

上海交大發布「人類行為理解引擎」：深度學習 + 符號推理，AI 逐幀理解大片中每個動作

知識驅動的行為理解

通訊作者曾為李飛飛團隊成員

上海交大發布「人類行為理解引擎」：深度學習 + 符號推理，AI 逐幀理解大片中每個動作

佳明發布 Garmin Venu 2 系列智慧手錶：支援 NFC 支付，2980 元

無需 Win11，不是華為筆記本 PC，一樣能用上「華為移動應用引擎」：執行安卓 App

鐳風發布全新 RTX 30 系列顯示卡：元氣薄荷，清新脫俗

華碩海外發布無畏 Vivobook Pro 14/15 筆記本：OLED 屏，英特爾/AMD 處理器

工信部發布阿帕奇 Log4j 2 元件重大安全漏洞風險提示，提醒行業和公眾注意

飛利浦發布新款 23.8 英寸辦公顯示器：搭載全功能 USB-C 和網線介面

2880 元起，GARMIN 佳明發布本能 Instinct 2 系列智慧手錶：主打超長續航、專業健康資料監測

工信部發布最新一批免徵車輛購置稅的新能源汽車車型目錄，比亞迪海豹等在列

工信部發布行業標準規範手機影象視訊防抖效能技術要求，由華為、OPPO、vivo 等聯合制訂

聯想 moto edge s pro 手機發布 MYUI 3.0 公測版：安卓 12、電腦手機辦公一體化、應用多開支援更多 App

一張圖看懂「魅族 18 系列」：年度極致旗艦 + 小屏滿血旗艦

配件商推出 AirTag 全方位「保護套」：四顆螺絲固定，還可以掛鑰匙扣

谷歌新引擎可將深度學習提速 1000 倍：1 個 GPU 幾分鐘搞定強化學習訓練

《時代》評選 2021 年度「100 個最佳發明」：三星 Galaxy Z FIip3 摺疊屏手機、英偉達虛擬技術平臺等上榜

訊飛輸入法推出「遊戲語音鍵盤」：黑話也能識別，語音輸入 1 分鐘達 400 字

1399-1799 元，優派發布全新 62 系列 Type-C 顯示器：支援 65W 反向充電，最高 4K 解析度

「皇室官方新聞報」：2022年4月份更新最新、最全、中文版資訊

雷克沙發布新款 NM760 PCIe 4.0 SSD：採用 12nm 新主控，1TB 首發 849 元

工信部發布 136 款侵害使用者權益行為 App，騰訊手機管家、訊飛配音等在列

上海交大發布「人類行為理解引擎」：深度學習 + 符號推理，AI 逐幀理解大片中每個動作

知識驅動的行為理解

通訊作者曾為李飛飛團隊成員

相關推薦