1. 程式人生 > 資訊 >何愷明時隔兩年再發一作論文:為視覺大模型開路,“CVPR 2022 最佳論文候選預定”

何愷明時隔兩年再發一作論文:為視覺大模型開路,“CVPR 2022 最佳論文候選預定”

大神話不多,但每一次一作論文,必定引發江湖震動。

這不,距離上一篇一作論文 2 年之後,何愷明再次以一作身份,帶來最新研究。

依然是視覺領域的研究,依然是何愷明式的大道至簡。

甚至在業內紛紛追求“大力出奇跡”、“暴力美學”的當下,何愷明還帶著一種堅持獨立思考的反共識氣概。

簡潔:通篇論文沒有一個公式。

有效:大巧不工,用最簡單的方法展現精妙之美。

江湖震動:“CVPR 2022 最佳論文候選預定”。

所以,何愷明新作《Masked Autoencoders Are Scalable Vision Learners》究竟有怎樣的思想和研究成果?

用於 CV 的自監督學習方案

本文提出了一種用於計算機視覺的 Masked AutoEncoders 掩蔽自編碼器,簡稱 MAE,一種類似於 NLP 技術的自我監督方法。

操作很簡單:對輸入影象的隨機區塊進行掩蔽,然後重建缺失的畫素。

主要有兩個核心設計。

一個是非對稱的編碼-解碼架構,一個高比例遮蔽輸入影象。

先來看編碼-解碼架構。

如圖所示,編碼器是 ViT,它僅對可見區塊進行操作,然後用一個輕量級編碼器 —— 僅在預訓練期間負責影象重建任務。

具體而言,作者先將影象均勻劃分為非重疊區塊,然後隨機對區塊進行取樣。

以遮蔽比例 75% 為例,它先在輸入影象中掩蔽 75% 的隨機區塊,編碼器只在可見的 25% 區塊子集上執行,這樣就可以只用非常少的計算和視訊記憶體,來訓練非常大的編碼器。

然後解碼器將可見的 token 和掩碼 token 組合,並向所有 token 中新增位置嵌入,通過預測每個掩蔽區塊的畫素值來重建影象訊號。

這樣一來,在預訓練時解碼器可以獨立於編碼器,從而可以用非常輕量級解碼器實驗,大量減少預訓練時間。

另一個特點則是對輸入影象的高比例進行遮蔽時,自監督任務效果非常好。

比如,掩蔽掉 80% 隨機 patch 的效果如下:

其中最左列為輸入影象,中間列為 MAE 方法重建效果,最右側為原圖效果。

不同掩蔽比例在重建影象中的表現對比如下:

將這兩種設計結合,結果用來訓練大模型:

訓練速度提升 3 倍以上,還提高準確率的那種

除此之外,基於該方案所得出的大模型具備很好的泛化能力:

比如,在僅使用 ImageNet-1K 資料時,ViT-Huge 模型準確性達 87.8%。

在 COCO 資料集中的表現如下,雖然重建效果不清晰,但是基本語義是正確的。

研究者還對 MAE 遷移學習的效能進行了評估。

結果在下游任務,比如目標檢測、例項分割、語義分割等任務都優於監督預訓練。

在對比中可以看到,隨機遮蔽 75%、整塊遮蔽 50% 和網格遮蔽 50% 的三種取樣方法中,隨機遮蔽 75% 重建影象的質量最好。

基於這些研究成果,何愷明團隊在最後也表達了他們的看法。

一方面,擴充套件性好的簡單演算法是深度學習的核心。

在計算機視覺中,儘管自監督學習方面取得了進展,但實際預訓練仍需受到監督。

這項研究中,作者看到 ImageNet 和遷移學習任務中,自編碼器表現出了非常強的可擴充套件優勢。

為此作者認為,CV 中自監督學習現在可能正走上與 NLP 類似的軌道

另一方面,作者注意,影象和語言是不同性質的訊號,這種差異需要小心處理。

影象僅僅是記錄下來的光,並沒有語義分解為文字的視覺類似物。

他們不是去試圖去除物體,而是去除可能不構成語義段的隨機區塊。重建的畫素,也並不是語義實體。

研究團隊

論文的研究團隊,來自 Facebook AI 研究院(FAIR),每個人都屢屢獲譽,堪稱夢之隊。

除了幾位老將,我們這次再多說說裡面的華人面孔。

Xinlei Chen,本科畢業於浙江大學計算機專業,隨後在卡內基梅隆大學攻讀博士學位,曾在 UCLA、谷歌雲、MSR 實習。

謝賽寧,本科畢業於上海交通大學 ACM 班,隨後在 UC 聖迭戈分校攻讀計算機博士學位,曾在谷歌、DeepMind 實習。

Yanghao Li,本科畢業於北京大學計算機專業,隨後留在本校繼續攻讀碩士學位。

最後,再次隆重介紹下何愷明。

一作何愷明,想必大家都不陌生。作為 Mask R-CNN 的主要提出者,他已 4 次斬獲頂會最佳論文

何愷明是 2003 年廣東高考狀元,並保送了清華,進入楊振寧發起設立的物理系基礎科學班。

碩博階段,何愷明前往香港中文大學多媒體實驗室,導師正是後來的商湯科技創始人湯曉鷗。

此間,何愷明還進入微軟亞洲研究院實習,在孫劍指導下,以一作身份發表 ResNet 研究,一舉成名天下知,榮獲 2016 年 CVPR 最佳論文。

同年何愷明進入由 Yann Lecun(獲 2019 年圖靈獎)掌舵的 Facebook 人工智慧實驗室,與 Ross Girshick、Piotr Dollar—— 本次研究中的其他幾位老面孔,組成了 FAIR 在 AI 研究領域的夢之隊。

更加令人欽佩的是,何愷明年少成名,但這幾年來依然不斷潛心研究,一直帶來新驚喜。

甚至他的新研究,很多都是那種可以開枝散葉的成果。

這一次,MAE 同樣被視為這樣的延續。

你怎麼看 MAE?