首次超越人類:“讀圖會意”這件事,AI 比你眼睛更毒辣
在超越人類這件事上,AI 又拿下一分。
就在最近,國際權威機器視覺問答榜單 VQA Leaderboard,更新了一項資料:
AI 在“讀圖會意”任務中,準確率達到了 81.26%。
要知道,我們人類在這個任務中的基準線,也才 80.83%。
而解鎖這一成就的,是來自阿里巴巴達摩院團隊的 AliceMind-MMU。
而此舉也就意味著,AI 於 2015 年、2018 年分別在視覺識別和文字理解超越人類之後,在多模態技術方面也取得了突破!
AI 比你更會看圖
這個 AI 有多會看圖?
來看下面幾個例子就知道了。
當你問 AI:“這些玩具用來做什麼的?”
它就會根據小熊穿的禮服,回答道:
婚禮。
給 AI 再提一個問題:“男人的橄欖球帽代表哪隻球隊?”
它會根據帽子中的“B”字母回答:
波士頓球隊。
加大挑戰難度再來一個。
“圖中玩具人的 IP 出自哪部電影?”
這時候,AI 就會根據圖中的玩具,還有戰鬥場景等資訊,做一個推理。
不過最後還是精準的給出了答案:
星球大戰。
再例如下面這些例子中,AI 都會捕捉圖片中的細節資訊,來精準回答提出的問題。
嗯,可以說是細緻入微了。
怎麼做到的?
可能上面的這些案例,對於人類來說並不是很困難。
但對於 AI 來說,可不是件容易的事情。
一個核心難點就是:
需要在單模態精準理解的基礎上,整合多模態的資訊進行聯合推理認知,最終實現跨模態理解。
怎麼破?
阿里達摩院的做法是,對 AI 視覺-文字推理體系進行了系統性的設計,融合了大量的創新演算法。
具體來看,大致可以分為四個內容:
多樣性的視覺特徵表示:從各方面刻畫圖片的區域性和全域性語義資訊,同時使用 Region,Grid,Patch 等視覺特徵表示,可以更精準地進行單模態理解;
基於海量圖文資料和多粒度視覺特徵的多模態預訓練:用於更好地進行多模態資訊融合和語義對映,提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等預訓練模型。
自適應的跨模態語義融合和對齊技術:在多模態預訓練模型中加入 Learning to Attend 機制,來進行跨模態資訊地高效深度融合。
Mixture of Experts (MOE)技術:進行知識驅動的多技能 AI 整合。
據瞭解,模型中涉及技術還得到了專業的認可。
例如多模態預訓練模型 E2E-VLP,已經被國際頂級會議 ACL2021 接受。
關於 VQA
VQA,可以說是 AI 領域難度最高的挑戰之一。
而對於單一 AI 模型來說,VQA 考卷難度堪稱“變態”。
在測試中,AI 需要根據給定圖片及自然語言問題,生成正確的自然語言回答。
這意味著單個 AI 模型,需要融合複雜的計算機視覺及自然語言技術:
首先對所有影象資訊進行掃描。
再結合對文字問題的理解,利用多模態技術學習圖文的關聯性、精準定位相關影象資訊。
最後根據常識及推理回答問題。
但解決 VQA 的挑戰,對研發通用人工智慧具有重要意義。
因此,全球計算機視覺頂會 CVPR 從 2015 年起連續 6 年舉辦 VQA 挑戰賽。
吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構參與。
同時,也形成了國際上規模最大、認可度最高的 VQA 資料集,其包含超 20 萬張真實照片、110 萬道考題。
據瞭解,今年 6 月,阿里達摩院在 VQA 2021 Challenge 的 55 支提交隊伍中奪冠,成績領先第二名約 1 個百分點、去年冠軍 3.4 個百分點。
而僅僅在 2 個月後的今天,達摩院再次以 81.26% 的準確率創造 VQA Leaderboard 全球紀錄。
達摩院對此評價道:
這一結果意味著,AI 在封閉資料集內的 VQA 表現已媲美人類。