1. 程式人生 > >何愷明、吳育昕最新成果:用組歸一化替代批歸一化

何愷明、吳育昕最新成果:用組歸一化替代批歸一化

640?wx_fmt=png&wxfrom=5&wx_lazy=1

編譯 | 阿司匹林

AI科技大本營按:近日,FAIR 團隊的吳育昕和何愷明提出了組歸一化(Group Normalization,簡稱 GN)的方法。其中,GN 將訊號通道分成一個個組別,並在每個組別內計算歸一化的均值和方差,以進行歸一化處理。此外,GN 的計算與批量大小無關,而且在批次大小大幅變化時,精度依然穩定。實驗結果證明,GN 在多個任務中的表現均優於基於 BN 的同類演算法,這表明 GN 能夠在一系列任務中有效地替代 BN。

以下內容來自 Group Normalization 論文,AI科技大本營翻譯:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

批歸一化(Batch Normalization,簡稱 BN )是深度學習發展中的一項里程碑技術,它讓各種網路都能夠進行訓練。然而,沿著批次維度的歸一化也帶來了新問題:當統計不準確導致批次的大小越來越小時,BN 的錯誤會急劇增加。在訓練更大的網路,以及執行將特徵遷移至包括探測、分割、視訊在內的計算機視覺任務時,BN 的使用就受到了限制,因為它們受限於記憶體消耗而只能使用小批次。

在該論文中,我們提出了一種簡單的組歸一化的方法。GN 將訊號通道分成一個個組別,並在每個組別內計算歸一化的均值和方差,以進行歸一化處理。GN 的計算與批量大小無關,而且在批次大小大幅變化時,精度依然穩定。例如在 ImageNet 上訓練的 ResNet-50 ,當批次大小為 2 時,GN 的誤差比 BN 低 10.6 %;當使用典型的批次大小時,GN 與 BN 的表現相當,並且優於其他歸一化變體。此外,GN 可以自然地從預訓練遷移到微調階段。在 COCO 的目標檢測和 Kinetics 的視訊分類任務中,GN 的表現均優於基於 BN 的同類演算法,這表明 GN 能夠在一系列任務中有效地替代 BN。重要的是,只需幾行程式碼,就可以在現代庫中實現 GN。

640?wx_fmt=png

圖1:ImageNet 分類誤差與批次大小的關係。這是在 ImageNet 訓練集中使用 8 塊 GPU 訓練的 ResNet-50 模型,並在驗證集上進行了評估。

組歸一化

視覺表徵的通道並不是完全獨立的。SIFT、HOG 和 GIST 的經典特徵是符合分組特徵的,其中每組通道由某種直方圖(histogram)構成。這些特徵通常通過在每個直方圖或每個方向上執行分組歸一化來處理。諸如 VLAD 和 Fisher Vectors (FV)  等高階特徵也是分組特徵,其中每一組可以被認為是關於叢集計算的子向量。

類似地,我們不需要將深層神經網路特徵視為非結構化向量。例如,對於網路的第一個卷基層 conv1 ,我們可以預期,濾波器(filter)及其水平翻轉在自然影象上呈現類似的濾波器響應分佈是合理的。如果 conv1 碰巧近似地學習到這對濾波器,或者通過將水平翻轉設計到架構中,則這些濾波器的相應通道可以一起歸一化。

神經網路中的更高層級更加抽象,它們的行為也不那麼直觀。然而,除了方向之外,還有許多因素可以導致分組,例如頻率、形狀、照明、紋理等,它們的係數可以是相互依賴的。事實上,神經科學中一個廣為接受的計算模型就是對細胞反應進行歸一化,“具有各種感受野(receptive-field)中心(覆蓋視野)和各種時空頻率調諧”,這不僅可以發生在初級視覺皮層,而且可以發生在“整個視覺系統”中。受此啟發,我們提出了一種新的深度神經網路的泛組歸一化(generic group-wise normalization)方法。

640?wx_fmt=png

圖2:歸一化方法。每個子圖顯示一個特徵圖張量,其中 N 為批處理軸,C 為通道軸,( H; w )為空間軸。通過計算這些藍色畫素的和,它們被相同的平均值和方差歸一化。

組歸一化公式:

640?wx_fmt=png

只需要幾行代買,GN 就可以在 iPyTorch 和 TensorFlow 實現。

640?wx_fmt=png

實驗

1. 對 ImageNet 資料集進行影象分類

640?wx_fmt=png

圖4:批次大小為 32 幅影象/GPU 時的誤差曲線。上圖展示了 ImageNet 訓練誤差(左)和驗證誤差(右)與訓練週期的關係。模型為 ResNet-50。

640?wx_fmt=png

圖5:對批次大小的敏感度:ResNet-50 對 BN (左)和 GN(右)的驗證誤差,分別使用 32、16、8、4 和 2 幅影象/GPU 進行訓練。

640?wx_fmt=png

表1:ImageNet 驗證集中 ResNet-50 的誤差(%)的比較,使用大小為 32 幅影象/GPU 的批次進行訓練。誤差曲線如圖4所示。

640?wx_fmt=png

表2:對批次大小的敏感度。該表展示了 ResNet-50 在 ImageNet 中的驗證誤差(%)。最後一行顯示了 BN 和 GN 之間的差異。誤差曲線如圖 5 所示。

640?wx_fmt=png

圖6:VGG-16  中 conv5_3(5_3 為下標)輸出(在歸一化和 ReLU 之前)的特徵分佈的演變。右側的表顯示了 ImageNet 的驗證誤差(%)。模型使用 32 幅影象/ GPU 進行訓練。

640?wx_fmt=png

表3:組劃分。該表展示了 ResNet-50 在 ImageNet 中的驗證誤差(%),該模型使用 32 幅影象/GPU 進行訓練。(上):給定數量的組。(xia):每組給定數量的通道。每張表的最後一行顯示了最佳結果之間的差異。

2. 對 COCO 資料集進行目標檢測和分割

640?wx_fmt=png

表4:使用 Mask R-CNN(ResNet-50 C4)在 COCO 中的檢測和分割結果。BN* 表示 BN 被凍結。

640?wx_fmt=png

表5:使用 Mask R-CNN( ResNet-50 FPN 和 4conv1fc 邊界框)在 COCO 中的檢測和分割結果。 BN* 表示 BN 被凍結。

3. 對 Kinetics 資料集進行視訊分類

640?wx_fmt=png

圖7:Kinetics資料集中,輸入長度為 32 幀的誤差曲線。上圖顯示了 ResNet-50 I3D 對 BN(左)和 GN(右)的驗證誤差。

640?wx_fmt=png

表6: 對 Kinetics 的視訊分類結果:ResNe-50 I3D 基線的 top-1/top-5 精度( % )。

討論以及未來的工作

我們證明了 GN 可以作為一個有效的歸一化層,而不需要利用批量維度。我們已經評估了 GN 在各種應用中的表現。然而,我們也注意到,BN 的影響力如此之大,以至於許多最先進的系統及其超引數都是為它設計的,這寫對於基於 GN 的模型來說可能不是最佳的。因此,針對 GN 重新設計系統或者尋找新的超引數,可能會得到更好的結果。

此外,我們已經證明 GN 與 LN 和 IN 是相關聯的,這兩種歸一化方法在訓練 RNN/LSTM 等遞迴模型或者 GAN 等生成模型方面特別成功。這也提示我們今後應在這些領域進行 GN 的研究。未來,我們還將測試 GN 在強化學習任務中學習表徵方面的表現。

論文連結:https://arxiv.org/abs/1803.08494

精彩推薦

2018年3月30-31日,第二屆中國區塊鏈技術暨應用大會將於北京喜來登長城飯店盛大開場,50+區塊鏈技術領導人物,100+區塊鏈投資商業大咖,100+技術&財經媒體,1000+區塊鏈技術愛好者,強強聯合,共同探討最in區塊鏈技術,豪華乾貨禮包享不停。八折門票火熱搶購中!2018,未來已來,帶你玩轉區塊鏈。

640?wx_fmt=jpeg

AI科技大本營使用者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,後臺回覆:讀者群,聯絡營長,新增營長請備註姓名,研究方向。

☟☟☟點選 | 閱讀原文 | 檢視大會詳情

相關推薦

最新成果替代

編譯 | 阿司匹林AI科技大本營按:近日,FAIR 團隊的吳育昕和何愷明提出了組歸一化(Grou

全面解讀Group Normbalization-(- 重磅之作)

   作者:劉威威           編輯:李雪冬           前  言Face bo

詳解團隊4篇大作 !(附程式碼)| 從特徵金字塔網路Mask R-CNN到學習分割一切

來源:新智元作者:krish本文5000字,建議閱讀10+分鐘。本文介紹FAIR何愷明、Tsun

大神的「Focal Loss」,如何更好地理解?

轉自:http://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78920998   作者丨蘇劍林 單位丨廣州火焰資訊科技有限公司 研究方向丨NLP,神經網路 個人主頁丨kexue.fm   前言

ImageNet時代將終結?新作Rethinking ImageNet Pre-training

譯者 | 劉暢 林椿眄 整理 | Jane 出品 | AI科技大本營 Google 最新的研究成果 BERT 的熱度還沒褪去,大家都還在討論是否 ImageNet 帶來的預訓練模型之風真的要進入 NLP 領域了。如今,Facebook AI

ICCV 2017獲獎論文公佈 成為最大贏家! | 聚焦

本文系網易新聞-智慧工作室出品 聚焦AI,讀懂下一個大時代! 網易年度AI人物評選——2017網易AI英雄風雲榜,自薦提名進行中! 獎項設定:技術創新人物TOP 10,商業創新人物TOP 10 表彰人物:華人科學家、學者、企業家、創業者 評委陣容:資深媒體人、AI投資人、AI專業機構等 頒獎:20

完整復現ICCV獲獎論文結果並開源 !(附論文&開原始碼)

整理自:AI科技評論、AI科技大本營、圖森未來 本文長度為1434字,建議閱讀3分鐘 本文為你介紹何愷明ICCV 2017兩篇獲獎論文,並附上完整復現論文結果的開原始碼! ICCV 作為計算機視覺的頂級會議,2017年共收到2143篇論文投稿,比上一屆ICCV2015的1698篇增加了26.2%。共6

[論文復現]博士CVPR2009去霧算法(2)

波函數 基礎 rgb2gray mat 部分 cvpr .com tle symmetric 一、前言 終於,簡單實現了何博士論文去霧算法的基礎部分。由於CVPR2009論文中的優化方法比較麻煩,速度比較慢,何博士於2010ECCV補充了一篇Guided Image Fil

2016中國作家協會迎春茶話會在京舉行,鐵凝錢小芊閻晶汪國新鄭桂蘭文潔若高瑛等受邀出席

​ 1月27日,2016中國作家協會迎春茶話會在北京首都大酒店舉行。中國作協主席鐵凝,中國作協副主席、中國作家出版集團黨委書記何建明,中國作協副主席、黨組書記錢小芊,中國作協書記處書記閻晶明,全國政協委員、中國行為法學會法治中國詩書畫院院長、中國作協會員汪國新,北京燕山

【轉】FAIR團隊推出全景分割,開闢影象分割新方向

轉自:https://www.jqr.com/news/009492在計算機視覺發展的早期,人們主要關注影象中的人、動物或工具等明顯物件(things)。之後,Adelson提出要訓練系統識別其他物體的能力,如天空、造地、道路等沒有固定形狀的事物(stuff)。直到現在,仍然

周博磊知乎熱答如何評價大神斬獲ICCV 2017最佳論文

授權轉載自知乎 作者:周博磊 2017年10月24日下午,Facebook AI 研究員何愷明大神斬獲ICCV 2017最佳論文,這是他第三次斬獲頂會最佳論文,對於Kaiming He 在 ICCV 2017 上拿下雙 Best的paper,他的中大同學,另一位大神周博磊在知乎寫了一段他眼中的凱明師兄

高階函數實現(定義)與調

bsp 函數 nbsp 參數 形式 高階函數 返回 開放性 其它 高階函數是以參量和返回值的形式引用其它函數的函數; 高階函數是開放的和變化的。 相對於基本函數來說,高階函數提供了可配置性、變化性、開放性。 聲明: 高階函數本身的聲明,引用函數的聲明; 為高階函數和引用

恩達最新成果 CheXNet詳解肺炎診斷準確率超專業醫師

離開百度之後,吳恩達在學術界異常活躍,除了推出最新的深度學習線上課程之外,他還帶領著一支來自斯坦福的團隊不斷推進深度學習在醫療領域的應用。 近日,吳恩達團隊在 arXiv 上發表了他們的最新成果——用來檢測肺炎的 CheXNet。研究人員表示,這種被稱為 CheXnet 的演算法是一個 121

6Django實戰第6天戶登錄

pla 後臺 127.0.0.1 rtc user bubuko htm div eth 今天開始,我們需要來寫後臺邏輯了.... 後臺邏輯代碼都是編寫在views.py文件裏面,今天要完成的登錄功能,因此來編輯users.views.py 這裏我們根據請求方法來

數據結構(嚴蔚敏偉民)——讀書筆記-2 線性表及其基本運算順序存儲結構

content pri 線性 時間復雜度 length 將他 ron 個數 p s 第二章 線性表 2.1 線性表及其基本運算 2.2 線性表的順序存儲結構 2.3 線性表的鏈式存儲結構 1、線性表:是n個數據元素的有限序列。

C#聲實例和使用委托

實例化 創建 lin spa nbsp cnblogs 匿名方法 new receive // 聲明一個委托. delegate void Del(string str); // 聲明一個與委托簽名相同的方法. static void Notify(string nam

變量的聲定義初始(轉)

局部變量 聲明和定義 包含 int 外部變量 存儲 變量聲明 bsp 運行 先分享一下關於變量聲明和定義的區別: 變量的聲明有兩種情況: (1) 一種是需要建立存儲空間的(定義、聲明)。例如:int a在聲明的時候就已經建立了存儲空間。 (2) 另一種是不需要

MSIL實用指南-局部變量的聲保存和加載

dem opcode 所在 icm open cmod key 得到 closed 這一篇講解方法內的局部變量是怎麽聲明、怎樣保存、怎樣加載的。 聲明局部變量聲明用ILGenerator的DeclareLocal方法,參數是局部變量的數據類型,得到一個局部變量對應的創建類L

001-es6變量聲解構賦值解構賦值主要用途

es6 length onf 因此 但是 ctu ror erro turn 一、基本語法 1.1、聲明變量的六種方法 參看地址:http://es6.ruanyifeng.com/#docs/let let:局部變量,塊級作用域,聲明前使用報錯 var:全局變量,

函數(二)_全局變量聲可變參數關鍵字參數

默認參數 字典 關鍵字參數 沒有 width .com 直接 eight glob 1. global聲明全局變量 #聲明name這個變量為全局變量,只是寫在函數裏面 #寫代碼時,盡量不要用全局變量,會一直占用內存。 ------->{‘name‘: