1. 程式人生 > 資訊 >上海交大發布「人類行為理解引擎」:深度學習 + 符號推理,AI 逐幀理解大片中每個動作

上海交大發布「人類行為理解引擎」:深度學習 + 符號推理,AI 逐幀理解大片中每個動作

看圖看片,對現在的 AI 來說早已不是什麼難事。不過讓 AI 分析視訊中的人類動作時,傳統基於目標檢測的方法會碰到一個挑戰:靜態物體的模式與行為動作的模式有很大不同,現有系統效果很不理想。

現在,來自上海交大的盧策吾團隊基於這一思路,將整個任務分為了兩個階段:先將畫素對映到一個“基元活動”組成的過度空間,然後再用可解釋的邏輯規則對檢測到的基元做推斷。

△左:傳統方法,右:新方法

新方法讓 AI 真正看懂劇裡的卷福手在舉杯 (hold),右邊的人在伸手掏東西 (reach for):

對於遊戲中的多人場景也能準確分辨每一個角色的當前動作:

甚至連速度飛快的自行車運動員都能完美跟隨:

能夠像這樣真正理解視訊的 AI,就能在醫療健康護理、指引、警戒等機器人領域應用。這篇論文的一作為上海交大博士李永露,曾在 CVPR 2020 連中三篇論文。目前相關程式碼已開源。

知識驅動的行為理解

要讓 AI 學習人類,首先要看看人類是怎麼識別活動的。比如說,要分辨走路和跑步,我們肯定會優先關注腿部的運動狀態。再比如,要分辨一個人是否是在“喝水”,那麼他的手是否在握杯,隨後頭又是否接觸杯子,這些動作就成為了一個判斷標準。這些原子性的,或者說共通的動作就可以被看作是一種“基元”(Primitive)。

我們正是將一個個的基元“組合”推理出整體的動作,這就是就是人類的活動感知。那麼 AI 是否也能基於發現這種基元的能力,將其進行組合,並程式設計為某個具有組合概括性的語義呢?因此,盧策吾團隊便提出了一種知識驅動的人類行為知識引擎,HAKE(Human Activity Knowledge Engine)。

這是一個兩階段的系統:

  • 將畫素對映到由原子活動基元跨越的中間空間

  • 用一個推理引擎將檢測到的基超程式設計為具有明確邏輯規則的語義,並在推理過程中更新規則。

整體來說,上述兩個階段也可以分為兩個任務。首先是建立一個包括了豐富的活動-基元標籤的知識庫,作為推理的“燃料”。在於 702 位參與者合作之後,HAKE 目前已有 35.7 萬的影象 / 幀,67.3 萬的人像,22 萬的物體基元,以及 2640 萬的 PaSta 基元。

其次,是構建邏輯規則庫和推理引擎。在檢測到基元后,研究團隊使用深度學習來提取視覺和語言表徵,並以此來表示基元。然後,再用可解釋的符號推理按照邏輯規則為基超程式設計,捕獲因果的原始活動關係。

在實驗中,研究者選取了建立在 HICO 基礎上,包含 4.7 萬張圖片和 600 次互動的 HICO-DET,以及包含 430 個帶有時空標籤的視訊的 AVA,這兩個大規模的基準資料集。在兩個資料集上進行例項級活動檢測:即同時定位活動的人 / 物並對活動進行分類。

結果,HAKE,在 HICO-DET 上大大提升了以前的例項級方法,特別是在稀有集上,比 TIN 提高了 9.74mAP(全類平均精度),HAKE 的上限 GT-HAKE 也優於最先進的方法。在 AVA 上,HAKE 也提高了相當多的活動的檢測效能,特別是 20 個稀有的活動。

通訊作者曾為李飛飛團隊成員

論文的通訊作者是上海交通大學的盧策吾,也是電腦科學的教授。在加入上海交大之前,他在中國香港中文大學獲得了博士學位,並曾在斯坦福大學擔任研究員,在李飛飛團隊工作。現在,他的主要研究領域為計算機視覺、深度學習、深度強化學習和機器人視覺。

一作李永露為上海交通大學的博士生,此前他曾在中國科學院自動化研究所工作。在 CVPR 2020 他連中三篇論文,也都是圍繞知識驅動的行為理解(Human Activity Understanding)方面的工作。

論文:

https://arxiv.org/abs/2202.06851v1

開源連結:

https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec