2022 年 4 月 10篇 ML 研究論文推薦
NVidia 的新 H100 GPU已經發布了,我們也很久沒有發論文推薦了,這是4月份的論文推薦:Google 的 5400 億引數 PaLM、Pathways、Kubric、Tensor Programs、Bootstrapping Reasoning With Reasoning、Sparse all-MLP 架構、使用深度學習製作人臉動畫等等。
1、Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
By Greg Yang, Edward J. Hu et al.
超引數調優是建立 SOTA 模型的重要因素。對於大型模型,這通常需要大量的計算資源,這使得資源有限的小型參與者根本無法進入這一領域。論文的這項工作展示瞭如何更有效地完成超引數調整。
為了訓練神經網路,必須選擇合適的超引數。在前幾年,超引數只有少數幾個(例如固定學習率、卷積核大小等),但現在超引數空間變得更加複雜:學習率啟用函式、學習率計劃、優化器選擇、注意力頭的數量、隱藏維度 等等。
論文中提到的方法可以在小型模型中找到最佳超引數,然後擴充套件模型到大型模型進行最終的資源密集型訓練執行。這種稱為 μTransfer 的方法不僅基於理論分析,並且可證明在某些條件下有效,作者也憑經驗表明,通過在現代 Transformer 上使用該技術,這種方法可以更寬鬆地應用。
作者也提到,這種方法仍然存在許多侷限性,但它為促進大型模型的訓練,甚至對現有模型的進一步優化,甚至在數萬億引數規模上實現下一代更大型模型的超引數調整提供了一個有趣的方向.
2、Visual Prompt Tuning
By Menglin Jia, Luming Tang, et al.
對於現在的大型模型而言人們不會從頭開始構建模型,而是使用預先訓練的模型進行微調。下游任務中最大限度地利用大型預訓練模型同時計算成本低的技術將是關鍵。Prompt 就是這樣一種技術。
作者探討了各種“部分調整”技術如何在調整引數/效能比的百分比方面進行比較。大型預訓練模型通過使用標記資料和在整個架構中傳播梯度來進行微調。但是在過去的一年中,prompt已成為一種可行的替代方案:保持預先訓練的模型權重不變,並在輸入中預先新增一組嵌入,這些嵌入可以通過梯度下降和一些標記資料來學習。
這種技術已被證明在 NLP 任務上是有效的,現在正被用於影象分類,它不僅在效率方面而且在絕對準確度方面都表現出非常有競爭力的效能。更重要的是,Prompt 在 few-shot 的情況下最為突出,在這種情況下,完全微調通常很困難。Prompt 的另一個好處是,它可以預訓練模型概念化為輸入/輸出黑盒,訓練一個只能通過 API 訪問的模型(使用無梯度優化⁷,或在梯度可用時進行梯度下降) ,這是行業正在發展的方向。
3、Pathways: Asynchronous Distributed Dataflow for ML and PaLM: Scaling Language Modeling with Pathways
By Paul Barham et al.
如果你認為大規模擴充套件的工具將是未來AI不可缺少的一部分,那麼這是你所需要的谷歌對未來的計劃。它包含了最新的5400億引數的巨大Transformer。
本文是 Google 的Pathways 的未來路徑藍圖,“用於硬體加速器的大規模編排層,可在數千個加速器上進行異構平行計算,同時通過其專用互連協調資料傳輸。”
現有的加速器框架擅長在資料的不同部分並行執行相同的計算,這些部分稍後會同步(又名單程式多資料,SPMD)。Pathways 旨在能夠平行計算更多異構計算(又名多程式多資料,MPMD)。
這使得訓練和託管模型成為可能,比如剛剛釋出的5400億個引數(密集)的PaLM: Scaling Language Modeling with Pathways⁶,它是在跨越多個pod的6144個TPU v4晶片上進行訓練的。這種密集模型是最新的旗艦產品,它在許多零和少樣本的NLP任務中實現了最先進的技術,在過程中超過了許多人類的基線。
完整文章
https://www.overfit.cn/post/574315c935e641e58d8d3f379f083094