1. 程式人生 > 資訊 >首次超越人類:“讀圖會意”這件事,AI 比你眼睛更毒辣

首次超越人類:“讀圖會意”這件事,AI 比你眼睛更毒辣

在超越人類這件事上,AI 又拿下一分。

就在最近,國際權威機器視覺問答榜單 VQA Leaderboard,更新了一項資料:

AI 在“讀圖會意”任務中,準確率達到了 81.26%。

要知道,我們人類在這個任務中的基準線,也才 80.83%。

而解鎖這一成就的,是來自阿里巴巴達摩院團隊的 AliceMind-MMU。

而此舉也就意味著,AI 於 2015 年、2018 年分別在視覺識別和文字理解超越人類之後,在多模態技術方面也取得了突破!

AI 比你更會看圖

這個 AI 有多會看圖?

來看下面幾個例子就知道了。

當你問 AI:“這些玩具用來做什麼的?”

它就會根據小熊穿的禮服,回答道:

婚禮。

給 AI 再提一個問題:“男人的橄欖球帽代表哪隻球隊?”

它會根據帽子中的“B”字母回答:

波士頓球隊。

加大挑戰難度再來一個。

“圖中玩具人的 IP 出自哪部電影?”

這時候,AI 就會根據圖中的玩具,還有戰鬥場景等資訊,做一個推理。

不過最後還是精準的給出了答案:

星球大戰。

再例如下面這些例子中,AI 都會捕捉圖片中的細節資訊,來精準回答提出的問題。

嗯,可以說是細緻入微了。

怎麼做到的?

可能上面的這些案例,對於人類來說並不是很困難。

但對於 AI 來說,可不是件容易的事情。

一個核心難點就是:

需要在單模態精準理解的基礎上,整合多模態的資訊進行聯合推理認知,最終實現跨模態理解。

怎麼破?

阿里達摩院的做法是,對 AI 視覺-文字推理體系進行了系統性的設計,融合了大量的創新演算法。

具體來看,大致可以分為四個內容:

  • 多樣性的視覺特徵表示:從各方面刻畫圖片的區域性和全域性語義資訊,同時使用 Region,Grid,Patch 等視覺特徵表示,可以更精準地進行單模態理解;

  • 基於海量圖文資料和多粒度視覺特徵的多模態預訓練:用於更好地進行多模態資訊融合和語義對映,提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等預訓練模型。

  • 自適應的跨模態語義融合和對齊技術:在多模態預訓練模型中加入 Learning to Attend 機制,來進行跨模態資訊地高效深度融合。

  • Mixture of Experts (MOE)技術:進行知識驅動的多技能 AI 整合。

據瞭解,模型中涉及技術還得到了專業的認可。

例如多模態預訓練模型 E2E-VLP,已經被國際頂級會議 ACL2021 接受。

關於 VQA

VQA,可以說是 AI 領域難度最高的挑戰之一。

而對於單一 AI 模型來說,VQA 考卷難度堪稱“變態”。

在測試中,AI 需要根據給定圖片及自然語言問題,生成正確的自然語言回答。

這意味著單個 AI 模型,需要融合複雜的計算機視覺及自然語言技術:

  • 首先對所有影象資訊進行掃描。

  • 再結合對文字問題的理解,利用多模態技術學習圖文的關聯性、精準定位相關影象資訊。

  • 最後根據常識及推理回答問題。

但解決 VQA 的挑戰,對研發通用人工智慧具有重要意義。

因此,全球計算機視覺頂會 CVPR 從 2015 年起連續 6 年舉辦 VQA 挑戰賽。

吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構參與。

同時,也形成了國際上規模最大、認可度最高的 VQA 資料集,其包含超 20 萬張真實照片、110 萬道考題。

據瞭解,今年 6 月,阿里達摩院在 VQA 2021 Challenge 的 55 支提交隊伍中奪冠,成績領先第二名約 1 個百分點、去年冠軍 3.4 個百分點。

而僅僅在 2 個月後的今天,達摩院再次以 81.26% 的準確率創造 VQA Leaderboard 全球紀錄。

達摩院對此評價道:

這一結果意味著,AI 在封閉資料集內的 VQA 表現已媲美人類。