1. 程式人生 > 其它 >​2021年機器學習什麼風向?谷歌大神Quoc Le:把注意力放在MLP上

​2021年機器學習什麼風向?谷歌大神Quoc Le:把注意力放在MLP上

https://mp.weixin.qq.com/s/kAhP5kbYPX2vEtU5Qxd25A

[ 導語]在機器學習領域裡有一句俗話:「Attention is all you need」,通過注意力機制,谷歌提出的 Transformer 模型引領了 NLP 領域的大幅度進化,進而影響了 CV 領域,甚至連論文標題本身也變成了一個梗,被其後的研究者們不斷重新演繹。

技術潮流總有變化的時候——到了 2021 年,風向似乎變成了多層感知機(MLP)。近日,谷歌大腦 Quoc Le 等人的一項研究對注意力層的必要性提出了質疑,並提出了一種具有空間門控單元的無注意力網路架構 gMLP,在影象分類和掩碼語言建模任務上均實現了媲美 Transformer 的效能表現。

最近一段時間,多層感知機 MLP 成為 CV 領域的重點研究物件。谷歌原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構,並且在設計上非常簡單,在 ImageNet 資料集上也實現了媲美 CNN 和 ViT 的效能。
接著,清華大學圖形學實驗室 Jittor 團隊提出了一種新的注意機制「External Attention」,只用兩個級聯的線性層和歸一化層就可以取代現有流行的學習架構中的「Self-attention」。同一時期,清華大學軟體學院丁貴廣團隊提出的結合重引數化技術的 MLP 也取得了非常不錯的效果。
Facebook 也於近日提出了一種用於影象分類的純 MLP 架構,該架構受 ViT 的啟發,但更加簡單:不採用任何形式的注意力機制,僅僅包含線性層與 GELU 非線性啟用函式。
MLP→CNN→Transformer→MLP 似乎已經成為一種大勢所趨。谷歌大腦首席科學家、AutoML 鼻祖 Quoc Le 團隊也將研究目光轉向了 MLP。在最新的一項研究中,該團隊提出了一種僅基於空間門控 MLP 的無注意力網路架構 gMLP,並展示了該架構在一些重要的語言和視覺應用中可以媲美 Transformer。

研究者將 gMLP 用於影象分類任務,並在 ImageNet 資料集上取得了非常不錯的結果。在類似的訓練設定下,gMLP 實現了與 DeiT(一種改進了正則化的 ViT 模型)相當的效能。不僅如此,在引數減少 66% 的情況下,gMLP 的準確率比 MLP-Mixer 高出 3%。這一系列的實驗結果對 ViT 模型中自注意力層的必要性提出了質疑。
他們還將 gMLP 應用於 BERT 的掩碼語言建模(MLM)任務,發現 gMLP 在預訓練階段最小化困惑度的效果與 Transformer 一樣好。該研究的實驗表明,困惑度僅與模型的容量有關,對注意力的存在並不敏感。隨著容量的增加,研究者觀察到,gMLP 的預訓練和微調錶現的提升與 Transformer 一樣快。
gMLP 的有效性,視覺任務上自注意力和 NLP 中注意力機制的 case-dependent 不再具有優勢,所有這些都令研究者對多個領域中注意力的必要性提出了質疑。
總的來說,該研究的實驗結果表明,自注意力並不是擴充套件 ML 模型的必要因素。隨著資料和算力的增加,gMLP 等具有簡單空間互動機制的模型具備媲美 Transformer 的強大效能,並且可以移除自注意力或大幅減弱它的作用。

論文地址:https://arxiv.org/pdf/2105.08050.pdf
模型方法
具有空間門控單元(Spatial Gating Unit, SGU)的 gMLP 架構示意圖如下所示,該模型由堆疊的 L 塊(具有相同的結構和大小)組成。

每個塊定義如下:

上圖公式中的關鍵元件是 s(·),這是一個用於捕獲空間互動的層。所以,研究者需要設計一個能夠捕獲 token 間複雜空間互動的強大 s(·)。
L 塊的整體佈局受到了反轉瓶頸(inverted bottleneck)的啟發,將 s(·) 定義為一個空間深度卷積(spatial depthwise convolution)。值得注意的是,不同於 Transformer,gMLP 模型無需位置嵌入,因為這類資訊將在 s(·) 中被捕獲。並且,gMLP 模型使用與 BERT 和 ViT 完全相同的輸入和輸出格式。
空間門控單元
為了實現跨 token 的互動,s(·) 層必須要包含空間維度上的收縮變換。最簡單的方法是線性投影:

在該論文中,研究者將空間互動單元定義為其輸入和空間轉換輸入的乘積:

影象分類任務
研究者在沒有額外資料的 ImageNet 資料集上將 gMLP 應用於影象分類任務,以衡量它在計算機視覺領域的效能。他們將三個 gMLP 變體模型(gMLP-Ti、gMLP-S 和 gMLP-B)與其他基於原始 Transformer 的模型進行了對比,包括 ViT、DeiT 以及其他幾個有代表性的卷積網路。
下表 1 給出了上述三個 gMLP 變體的引數、FLOPS 和生存概率(Survival Probability):

下表 2 為不同模型的對比結果。可以看到,gMLP 的 Top-1 準確率與 DeiT 模型相當。這一結果表明,無注意力的模型在影象分類任務上具有與 Transformer 一樣的資料高效性。此外,gMLP 可以媲美原始 Transformer,效能僅落後現有效能最佳的 ConvNet 模型和混合注意力模型。
MLP-like 模型中的 Tokenization 和嵌入過程可視作一種卷積
在掩碼語言建模任務上的效能
研究者對不同模型在掩碼語言建模任務(MLM)上的效能進行了實驗研究。
消融實驗:gMLP 中門控(gating)對 BERT 預訓練的重要性
研究者為消融實驗設定了三個基準模型:

  • 具有 Transformer 架構和可學得絕對位置嵌入的 BERT;
  • 具有 Transformer 架構和 T5-style 可學得相對位置偏差的 BERT;
  • 同上,但在 softmax 內部移除了所有與內容有關的項,並僅保留相對位置偏差。

在下表 3 中,他們將這些基準 BERT 模型與類似大小、不同版本的 gMLP 進行了對比。需要注意,表格最後一行 Multiplicative, Split 即上文方法部分描述的空間門控單元(SGU)。可以看到,SGU 的困惑度低於其他變體,具有 SGU 的 gMLP 得到了與 BERT 相當的困惑度。

gMLP 學得的空間投影權重的視覺化如下圖所示

案例研究:模型大小增加時,gMLP 的效能變化
在下表 4 中,研究者探究了隨著模型容量的增長,Transformer 與 gMLP 模型的擴充套件效能。結果表明,在模型容量相當時,足夠深度的 gMLP 在困惑度上的表現能夠趕上甚至優於 Transformer(困惑度越低,模型效果越好)。

gMLP 和 Transformer 這兩類不同架構模型的困惑度 - 引數關係大體符合冪次定律(如下圖 5 左)。此外,從圖 5 中還可以看到,儘管在預訓練和微調之間存在特定於架構的差異,但 gMLP 和 Transformer 在微調任務上均表現出了相當的擴充套件性。這表明,下游任務上模型的可擴充套件性與自注意力的存在與否無關。

消融實驗:tiny 注意力在 BERT 微調中的作用
為了脫離注意力的影響,研究者嘗試了一個混合模型,其中將一個 tiny 自注意力塊與 gMLP 的門控元件相連。他們將這個混合模型稱為 aMLP(a 表示注意力)。
下圖 6(左)為具有 tiny 自注意力塊的混合模型,圖 6(右)為 tiny 注意力模組的虛擬碼

如下表 7 所示,研究者通過預訓練困惑度和微排程量指標之間的校正曲線探究了 Transformer、gMLP 和 aMLP 的可遷移性。可以看到,就 SST-2 準確率而言,gMLP 的遷移效果優於具有注意力機制的 Transformer 模型,但在 MNLI 語料庫上的表現較差,但在加了 tiny 注意力(即 aMLP)之後就縮小了差距。

掩碼語言建模任務的主要結果
研究者展示了完整 BERT 設定下預訓練和微調的結果。他們使用了完整的英語 C4 資料集,並採用了批大小為 256、最大長度為 512 和 100 萬步訓練的常用掩碼語言建模設定。
下表 5 為 BERT、gMLP 和 aMLP 模型的規格:

如下表 6 所示,主要結果與前文結論保持一致,gMLP 在困惑度指標上可以媲美 BERT,模型規模越大結果更明顯。

網友質疑:這不就是 transformer 嗎
不過,對於這項研究中提出的基於空間門控單元的 gMLP 架構,有網友質疑:「gMLP 的整體架構難道不是更類似於 transformer 而不是原始 MLP 嗎?」

也有知乎網友質疑到:「空間門控單元不就是注意力嗎?」另一網友則表示:「不算是注意力可能是因為沒有 softmax。」
@陀飛輪 @霍華德
對此,你怎麼看呢?