首次超越人類：“讀圖會意”這件事，AI 比你眼睛更毒辣

阿新 • • 發佈：2021-08-14

在超越人類這件事上，AI 又拿下一分。

就在最近，國際權威機器視覺問答榜單 VQA Leaderboard，更新了一項資料：

AI 在“讀圖會意”任務中，準確率達到了 81.26%。

要知道，我們人類在這個任務中的基準線，也才 80.83%。

而解鎖這一成就的，是來自阿里巴巴達摩院團隊的 AliceMind-MMU。

而此舉也就意味著，AI 於 2015 年、2018 年分別在視覺識別和文字理解超越人類之後，在多模態技術方面也取得了突破！

AI 比你更會看圖

這個 AI 有多會看圖？

來看下面幾個例子就知道了。

當你問 AI：“這些玩具用來做什麼的？”

它就會根據小熊穿的禮服，回答道：

婚禮。

給 AI 再提一個問題：“男人的橄欖球帽代表哪隻球隊？”

它會根據帽子中的“B”字母回答：

波士頓球隊。

加大挑戰難度再來一個。

“圖中玩具人的 IP 出自哪部電影？”

這時候，AI 就會根據圖中的玩具，還有戰鬥場景等資訊，做一個推理。

不過最後還是精準的給出了答案：

星球大戰。

再例如下面這些例子中，AI 都會捕捉圖片中的細節資訊，來精準回答提出的問題。

嗯，可以說是細緻入微了。

怎麼做到的？

可能上面的這些案例，對於人類來說並不是很困難。

但對於 AI 來說，可不是件容易的事情。

一個核心難點就是：

需要在單模態精準理解的基礎上，整合多模態的資訊進行聯合推理認知，最終實現跨模態理解。

怎麼破？

阿里達摩院的做法是，對 AI 視覺-文字推理體系進行了系統性的設計，融合了大量的創新演算法。

具體來看，大致可以分為四個內容：

多樣性的視覺特徵表示：從各方面刻畫圖片的區域性和全域性語義資訊，同時使用 Region，Grid，Patch 等視覺特徵表示，可以更精準地進行單模態理解；
基於海量圖文資料和多粒度視覺特徵的多模態預訓練：用於更好地進行多模態資訊融合和語義對映，提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等預訓練模型。
自適應的跨模態語義融合和對齊技術：在多模態預訓練模型中加入 Learning to Attend 機制，來進行跨模態資訊地高效深度融合。
Mixture of Experts (MOE）技術：進行知識驅動的多技能 AI 整合。

據瞭解，模型中涉及技術還得到了專業的認可。

例如多模態預訓練模型 E2E-VLP，已經被國際頂級會議 ACL2021 接受。

關於 VQA

VQA，可以說是 AI 領域難度最高的挑戰之一。

而對於單一 AI 模型來說，VQA 考卷難度堪稱“變態”。

在測試中，AI 需要根據給定圖片及自然語言問題，生成正確的自然語言回答。

這意味著單個 AI 模型，需要融合複雜的計算機視覺及自然語言技術：

首先對所有影象資訊進行掃描。
再結合對文字問題的理解，利用多模態技術學習圖文的關聯性、精準定位相關影象資訊。
最後根據常識及推理回答問題。

但解決 VQA 的挑戰，對研發通用人工智慧具有重要意義。

因此，全球計算機視覺頂會 CVPR 從 2015 年起連續 6 年舉辦 VQA 挑戰賽。

吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構參與。

同時，也形成了國際上規模最大、認可度最高的 VQA 資料集，其包含超 20 萬張真實照片、110 萬道考題。

據瞭解，今年 6 月，阿里達摩院在 VQA 2021 Challenge 的 55 支提交隊伍中奪冠，成績領先第二名約 1 個百分點、去年冠軍 3.4 個百分點。

而僅僅在 2 個月後的今天，達摩院再次以 81.26% 的準確率創造 VQA Leaderboard 全球紀錄。

達摩院對此評價道：

這一結果意味著，AI 在封閉資料集內的 VQA 表現已媲美人類。

首次超越人類：“讀圖會意”這件事，AI 比你眼睛更毒辣

在超越人類這件事上，AI 又拿下一分。就在最近，國際權威機器視覺問答榜單 VQA Leaderboard，更新了一項資料：

關於迷你抄襲這件事，雙方請暫時停止交火。

開端最近網上總是有像這種的言論，比如迷你世界抄襲呀，我的世界原始碼是偷來的呀，這種的對此呢，我在這篇文章裡發表我自己的觀感以及進行理性的分析在此

AI“讀圖會意”首超人類，阿里巴巴達摩院重新整理全球 VQA 紀錄

8 月 13 日訊息據財聯社，國際權威機器視覺問答榜單 VQA Leaderboard 在近日出現關鍵突破，阿里巴巴達摩院的 AliceMind 以 81.26% 的準確率創造了新紀錄，讓 AI 在“讀圖會意”上首次超越人類。

關於週六單休卻不得不來加班這件事：呼籲每週都給自己放假休息！

在讀研究生，課題組組長很負責也很嚴格，對我們休假的安排是週六單休。我本身是那種不是很閒的住的人，所以倒也還好。

越會賺錢的人，越喜歡花時間在這件事上

最近在知乎上看到一句話，深表認同：成年人的一切選擇，都是錢說了算。特別是年紀大了以後，這種感受越來越強烈。

jvm還整理不明白，來看這篇文章，對比一下你就知道該學什麼了

前言 JVM調優是每個高階程式設計師的必修課，在本章中，我會從發展過程以及核心價值來剖析JVM的體系結構。為了讓大家更好的理解JVM的工作機制，我會在講解完執行時資料區之後，再通過一個類的載入過程到這

特斯拉馬斯克評價大眾汽車董事會主席：他在做正確的事，但處境艱難

10 月 13 日訊息，據國外媒體報道，特斯拉 CEO 馬斯克又在社交媒體上臧否人物了，這次的物件是大眾汽車董事會主席赫伯特迪斯（Herbert Diess）。

AOF檔案重寫的思路我是有了，不過這件事幹起來還是很耗時間

RDB持久化沒幾天，我就拿出了一套方案：RDB 既然我的資料都在記憶體中存放著，最簡單的就是遍歷一遍把它們全都寫入檔案中。

就餐這件小事，如何被AI計算深度改變？

文|曾響鈴來源|智慧相對論（aixdlun）天天嚷著營養均衡、保持身材，臨了卻不知道該吃什麼、怎麼吃；

影象註釋，AI比人類更精確？微軟新演算法重新整理影象註釋基準測試紀錄-1

今年 9 月，微軟在一篇論文中描述了一種新的圖片註釋演算法。微軟表示，其開發的新演算法在某些特定的測試中，精確度超過了人類。目前，該 AI 系統已被用於更新微軟為視障人士設計的助手應用程式“Seeing

程式設計師離職後被公司索賠35萬，這件事職場人必須知道！

最近，網上一個爆料，讓競業協議引起廣泛關注。樂位元組小樂認為職場中的每個人都可能會遇到這樣的事，特別是程式設計師這一職業，所以覺得有必要在這裡和大家說下這個事情。

材料專業畢業拿20w一年，我只因做對了這件事

關於我：雙非學校材料碩士，2020屆畢業的。刷著部落格，想到了自己經歷，分享給大家！

程式設計師面試前只因為做了這幾件事，成功征服了一系列大廠面試官。

這篇文章適用於所有需要就業的小夥伴，不管你是名校畢業，還是雙非出身，我相信這篇文章能給你帶來一點點的小的收穫！

做好這幾件事，程式碼質量可以提升一個檔次

這篇文章又是關於程式碼質量的，有些同學可能覺得我比較囉嗦。不過我就是想用這種方式讓大家重視起來。其實說來說去就那麼幾種方法，但是實際執行起來真是難於登天。

今日結束：iPhone 12 全系快充，努比亞 20W 低溫 PD 充電器 29 元

iPhone 12全系快充，努比亞20W低溫PD充電器報價39元，限時限量10元券，實付29元包郵，領券併購買。天貓8年老店，三紅旗艦店鋪，贈運費險。

外媒：半導體領域多環節產能緊張，下半年價格預計會更高

3 月 22 訊息，據國外媒體報道，去年下半年就不斷傳出晶片代工商產能緊張的訊息，而在今年年初，全球性的汽車晶片供應緊張，波及到了大眾、通用等眾多汽車廠商，隨後也傳出了代工商提高汽車芯片價格的訊息。

關於坎特伯雷公主與騎士喚醒冠軍之劍的奇幻冒險的關卡設計讓UP震驚這件事！（一）

只談個人有感覺的關卡設計（OwO) 由於遊戲名太長，以下簡稱冒險，在度過了遊戲前幾關冒險中簡單的火盆點火開啟機關，點燃炸彈炸掉路障，彈跳版，機關限時等解密機制，冒險終於在1-6和1-7給予了up驚喜。

AG超玩會想洗白一諾？其實是想告訴六點六一件事，網友：贏就秀，輸就罵

KPL常規賽的節奏比季前賽慢太多，很多玩家都覺得看得不過癮，畢竟常規賽的比賽一天只有2到3場，自然沒有季前賽的時候，每天看全部隊伍都打比賽過癮。不過常規賽是BO5的賽制，贏比賽不僅需要看當時選手在賽場上的狀態

關於磕原神裡凝光和北斗的CP故事這件事

搬運圖片先 “異議！！！”北斗 “呃……法官大人？”凝光對簿公堂 ^O^ 退庭爭議*^_^*“像你這樣的人就不應該在律法界”凝光生氣地說。

蘋果 VR/AR 新專利：用神經網路模擬全身動作，讓 VR 無線傳輸更快

智東西 7 月 14 日訊息，近日，蘋果的兩項 VR/AR 相關新專利得到了美國專利商標局（U.S. Patent and Trademark Office）授權。

首次超越人類：“讀圖會意”這件事，AI 比你眼睛更毒辣

AI 比你更會看圖

怎麼做到的？

關於 VQA

相關推薦