何愷明時隔兩年再發一作論文：為視覺大模型開路，“CVPR 2022 最佳論文候選預定”

阿新 • • 發佈：2021-11-13

大神話不多，但每一次一作論文，必定引發江湖震動。

這不，距離上一篇一作論文 2 年之後，何愷明再次以一作身份，帶來最新研究。

依然是視覺領域的研究，依然是何愷明式的大道至簡。

甚至在業內紛紛追求“大力出奇跡”、“暴力美學”的當下，何愷明還帶著一種堅持獨立思考的反共識氣概。

簡潔：通篇論文沒有一個公式。

有效：大巧不工，用最簡單的方法展現精妙之美。

江湖震動：“CVPR 2022 最佳論文候選預定”。

所以，何愷明新作《Masked Autoencoders Are Scalable Vision Learners》究竟有怎樣的思想和研究成果？

用於 CV 的自監督學習方案

本文提出了一種用於計算機視覺的 Masked AutoEncoders 掩蔽自編碼器，簡稱 MAE，一種類似於 NLP 技術的自我監督方法。

操作很簡單：對輸入影象的隨機區塊進行掩蔽，然後重建缺失的畫素。

主要有兩個核心設計。

一個是非對稱的編碼-解碼架構，一個高比例遮蔽輸入影象。

先來看編碼-解碼架構。

如圖所示，編碼器是 ViT，它僅對可見區塊進行操作，然後用一個輕量級編碼器 —— 僅在預訓練期間負責影象重建任務。

具體而言，作者先將影象均勻劃分為非重疊區塊，然後隨機對區塊進行取樣。

以遮蔽比例 75% 為例，它先在輸入影象中掩蔽 75% 的隨機區塊，編碼器只在可見的 25% 區塊子集上執行，這樣就可以只用非常少的計算和視訊記憶體，來訓練非常大的編碼器。

然後解碼器將可見的 token 和掩碼 token 組合，並向所有 token 中新增位置嵌入，通過預測每個掩蔽區塊的畫素值來重建影象訊號。

這樣一來，在預訓練時解碼器可以獨立於編碼器，從而可以用非常輕量級解碼器實驗，大量減少預訓練時間。

另一個特點則是對輸入影象的高比例進行遮蔽時，自監督任務效果非常好。

比如，掩蔽掉 80% 隨機 patch 的效果如下：

其中最左列為輸入影象，中間列為 MAE 方法重建效果，最右側為原圖效果。

不同掩蔽比例在重建影象中的表現對比如下：

將這兩種設計結合，結果用來訓練大模型：

訓練速度提升 3 倍以上，還提高準確率的那種。

除此之外，基於該方案所得出的大模型具備很好的泛化能力：

比如，在僅使用 ImageNet-1K 資料時，ViT-Huge 模型準確性達 87.8%。

在 COCO 資料集中的表現如下，雖然重建效果不清晰，但是基本語義是正確的。

研究者還對 MAE 遷移學習的效能進行了評估。

結果在下游任務，比如目標檢測、例項分割、語義分割等任務都優於監督預訓練。

在對比中可以看到，隨機遮蔽 75%、整塊遮蔽 50% 和網格遮蔽 50% 的三種取樣方法中，隨機遮蔽 75% 重建影象的質量最好。

基於這些研究成果，何愷明團隊在最後也表達了他們的看法。

一方面，擴充套件性好的簡單演算法是深度學習的核心。

在計算機視覺中，儘管自監督學習方面取得了進展，但實際預訓練仍需受到監督。

這項研究中，作者看到 ImageNet 和遷移學習任務中，自編碼器表現出了非常強的可擴充套件優勢。

為此作者認為，CV 中自監督學習現在可能正走上與 NLP 類似的軌道。

另一方面，作者注意，影象和語言是不同性質的訊號，這種差異需要小心處理。

影象僅僅是記錄下來的光，並沒有語義分解為文字的視覺類似物。

他們不是去試圖去除物體，而是去除可能不構成語義段的隨機區塊。重建的畫素，也並不是語義實體。

研究團隊

論文的研究團隊，來自 Facebook AI 研究院（FAIR），每個人都屢屢獲譽，堪稱夢之隊。

除了幾位老將，我們這次再多說說裡面的華人面孔。

Xinlei Chen，本科畢業於浙江大學計算機專業，隨後在卡內基梅隆大學攻讀博士學位，曾在 UCLA、谷歌雲、MSR 實習。

謝賽寧，本科畢業於上海交通大學 ACM 班，隨後在 UC 聖迭戈分校攻讀計算機博士學位，曾在谷歌、DeepMind 實習。

Yanghao Li，本科畢業於北京大學計算機專業，隨後留在本校繼續攻讀碩士學位。

最後，再次隆重介紹下何愷明。

一作何愷明，想必大家都不陌生。作為 Mask R-CNN 的主要提出者，他已 4 次斬獲頂會最佳論文。

何愷明是 2003 年廣東高考狀元，並保送了清華，進入楊振寧發起設立的物理系基礎科學班。

碩博階段，何愷明前往香港中文大學多媒體實驗室，導師正是後來的商湯科技創始人湯曉鷗。

此間，何愷明還進入微軟亞洲研究院實習，在孫劍指導下，以一作身份發表 ResNet 研究，一舉成名天下知，榮獲 2016 年 CVPR 最佳論文。

同年何愷明進入由 Yann Lecun（獲 2019 年圖靈獎）掌舵的 Facebook 人工智慧實驗室，與 Ross Girshick、Piotr Dollar—— 本次研究中的其他幾位老面孔，組成了 FAIR 在 AI 研究領域的夢之隊。

更加令人欽佩的是，何愷明年少成名，但這幾年來依然不斷潛心研究，一直帶來新驚喜。

甚至他的新研究，很多都是那種可以開枝散葉的成果。

這一次，MAE 同樣被視為這樣的延續。

你怎麼看 MAE？

何愷明時隔兩年再發一作論文：為視覺大模型開路，“CVPR 2022 最佳論文候選預定”

大神話不多，但每一次一作論文，必定引發江湖震動。這不，距離上一篇一作論文 2 年之後，何愷明再次以一作身份，帶來最新研究。依然是視覺領域的研究，依然是何愷明式的大道至簡。甚至在業內紛紛追求“大力出奇跡”、

時隔兩年《軍團要塞2》官方發新推迴應問題將改進遊戲

由於外掛和掛機指令碼橫行，《軍團要塞2》的玩家社群近期發起了抗議活動，呼籲V社解決問題。而在今天（5月27日）上午，V社的《軍團要塞2》官推終於發文迴應了玩家的呼聲，這距離其上一條推文已經過去了近兩年時間（2

時隔兩年，南京 Hero 久競再度摘獲 2020 王者榮耀冬冠總冠軍

1月23日訊息據王者榮耀職業聯賽 KPL 官方，南京 Hero 久競以 4:1 的比分戰勝新科榜首 DYG，成功登頂奪冠，捧起代表冠軍榮耀的冰鳳凰杯，官方評價 “英雄歸來！王朝再現！”

時隔兩年，小米 MIX 手機宣佈迴歸：“I'm Coming Back”

3月25日訊息今日上午，小米官方宣佈MIX 手機迴歸，並稱 “I'm Coming Back”。

時隔四年再 “造芯”，這次小米方向對了

3 月 31 日訊息，小米在其共計長達五個多小時的釋出會上推出了一顆自研晶片——澎湃 C1，這顆晶片搭載在小米首款摺疊屏手機 MIX FOLD 上。

2021年這些高頻面試知識點最後再發一次

2021年這些高頻面試知識點最後再發一次美團面試經歷（還原最真實的4面）美團一面：

時隔 5 年再被翻出：任正非簽發文章《華為到該炸掉研發金字塔的時候了》

8 月 11 日訊息8 月 8 日，華為心聲社群轉發了一篇名為《華為到該炸掉研發金字塔的時候了》的文章，該文章由華為創始人兼總裁任正非在 2016 年簽發，時隔 5 年被官方再次轉發。

劍來：RNG 3:0 斬落 WE，闊別兩年再臨《英雄聯盟》世界賽

9 月 3 日訊息在今日的《英雄聯盟》賽事中，RNG 電子競技俱樂部 3：0 戰勝 WE，拿下 LPL 第三張通往世界賽的門票成功晉級 2021 全球總決賽。

時隔兩年，英特爾推出 Xeon E-2300 系列處理器：重鑄 14nm 榮光

9 月 9 日訊息英特爾上一款 Xeon E 系列 CPU 還是 2019 年 Q2 的 Coffee Lake 架構的 Xeon E-2200 系列，至今已有兩年時間。

微星 ARMOR 系列顯示卡時隔兩年迴歸，推出 Radeon RX 6600

10 月 16 日訊息，根據外媒 VideoCards 訊息，微星時隔 2 年後再次推出了 ARMOR（裝甲）系列顯示卡，首款產品為 Radeon RX 6600 ARMOR V1。該系列定位入門級別，此前從未推出過 AMD RDNA 架構的顯示卡。由於 AMD RX

汽車 MCU 晶片需求旺盛，半導體封測廠商將在明後兩年保持強勁勢頭

據業內訊息人士透露，國際 IDM 將在 2022 年提高汽車 MCU 晶片報價，由於 IDM 的長期產能消耗承諾，預計其封測合作伙伴都將在 2022 年-2023 年保持強勁的勢頭。Digitimes 報道指出，總部位於日本的瑞薩電子已決定從明

時隔兩年多，華為平板 M6 推出 8GB+128GB 版本：麒麟 980 處理器 + 8.4 英寸 2K 屏，到手價 1949 元

感謝網友普萊是袋熊的線索投遞！

時隔4年再重做，新宮本實裝體驗服，孫悟空增強擱置，孫策T0改動回撥

本次的宮本武藏重做技能機制簡單來說：1/2技能會分別獲得一層刀勢，在三層刀勢時會獲得一段位移，2層刀勢會有一個四段的平A傷害，只有一層刀勢的話則是一段強化普攻；兩層刀勢可以減少技能CD，以此作為續航不斷的觸發

歐空局宣佈中止與俄月球專案合作，俄羅斯時隔 46 年再重啟登月計劃

4 月 13 日訊息，據央視報道，當地時間 13 日，歐洲航天局宣佈中止與俄羅斯在月球專案上的合作。當天，俄羅斯航天集團總經理羅戈津也表示，俄羅斯將拆除月球探測器上的歐洲儀器。值得一提的是，俄羅斯總統昨日在宇航

淨資產 1888 億美元，貝佐斯至少兩年未繳納一分所得稅

北京時間 6 月 9 日訊息，美國新聞調查網站 ProPublica 獲得的機密納稅檔案顯示，2007 年和 2011 年，亞馬遜 CEO 傑夫・貝佐斯 (Jeff Bezos) 未繳納一分聯邦所得稅。

小米 CC 系列產品經理：Civi 可以說是 CC 兩年的蛻變之作

9 月 22 日訊息小米手機的新系列“Xiaomi Civi”今日正式公佈，系列主打設計、影像，目標使用者是年輕人，將於 9 月 27 日 14 點舉行“一場天生好看的科技釋出會”。小米 CC 系列產品經理 @Cici_老魏發文透露，自己

虎牙與歐洲電競 ESL 達成兩年中文獨家賽事直播合作：涵蓋《CS:GO》、《Dota2》、《星際爭霸 2》等

11 月 18 日訊息，虎牙公司與 ESL 公司宣佈，雙方達成為期兩年（2022、2023 年）的中文獨家賽事直播版權協議，將在涵蓋 CS:GO、Dota2、星際爭霸 2 等電競品類的 ESL 系列賽事領域，繼續深入開展直播合作。據悉，虎牙

盤點蘋果五款兩年多未更新的產品：iPod touch、AirPods Pro 在列

2 月 3 日訊息，雖然蘋果公司的大部分產品陣容現在都是最新的，但有少數裝置和配件在最近幾年沒有得到硬體更新。MacRumors 列出了蘋果公司兩年未更新的五種產品，除了新的軟體功能外，這些產品已經兩年多沒有硬體更

2020年10月程式語言排行榜：C語言穩居第一，Python或即將超Java

TIOBE已公佈2020年10月的程式語言排行榜。C語言依然排行第一了，隨後分別是Java、Python、C++、C#。前20名排行如下：

魅族 17 Pro 再獲行業設計獎項：最高限時補貼 750 元，支援 6 期免息

1月26日訊息今日，魅族宣佈，魅族 17 Pro 獲得了 GOOD DESIGN AWARD 2020 優良設計獎等在內的行業多項設計類獎項。

何愷明時隔兩年再發一作論文：為視覺大模型開路，“CVPR 2022 最佳論文候選預定”

用於 CV 的自監督學習方案

研究團隊

相關推薦