1. 程式人生 > >論文閱讀:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

論文閱讀:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

論文首先提出了神經網路訓練的一個不好的現象:batch size的增大到一定程度,ResNet的分類準確率會下降。這個現象推翻了我以前的一個直覺:覺得batch size大,訓練的效果會更好。

為了加快訓練的速度(增大batch size)同時保證準確率,論文提出了一個trick:讓學習率lr隨著batch size線性增大(Linear Scaling Rule),使得訓練時的batch size在[64(2^6), 8192(2^13)]的區間範圍變化時可以得到了幾乎不變的準確率。

上述linear scaling rule是基於一個很強的假設:單個mini-batch內的各樣本的梯度相同。在訓練的開始階段,梯度差異大,假設完全不成立,因此論文提出了gradual warmup機制。gradual warmup在訓練的5個epoch使用0.1的學習率(對應batch size=256時的學習率),然後慢慢提高增加到linear scaling rule對應的學習率。

相關推薦

論文閱讀Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

論文首先提出了神經網路訓練的一個不好的現象:batch size的增大到一定程度,ResNet的分類準確率會下降。這個現象推翻了我以前的一個直覺:覺得batch size大,訓練的效果會更好。 為了加快訓練的速度(增大batch size)同時保證準確率,論文

論文accurate ,large minibatch SGDTraining ImageNet in 1 Hour

Abstract:這篇論文發現,在 ImageNet dataset 上使用 large minibatch 會導致優化困難,但是當這個問題解決了,模型具有更好的泛化能力,並且沒有精度上的損失為達到這個目的,我們提出了 hyper-parameter-free linear

論文閱讀Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos

概述: Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos,ICCV 2017的文章,實現的是用domain adaptation技術將沒有label 的視訊資料遷移到圖片識別網路中

論文閱讀Memory Networks

users 方式 article div local 網絡 ava auto data- 一、論文所解決的問題 實現長期記憶(大量的記憶),而且實現怎樣從長期記憶中讀取和寫入,此外還增加了推理功能 為什麽長期記憶非常重要:由於傳統的RNN連復制任務都不行,LST

論文閱讀A Primer on Neural Network Models for Natural Language Processing(1

選擇 works embed 負責 距離 feature 結構 tran put 前言 2017.10.2博客園的第一篇文章,Mark。 由於實驗室做的是NLP和醫療相關的內容,因此開始啃NLP這個硬骨頭,希望能學有所成。後續將關註知識圖譜,深度強化學習等內

論文閱讀Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

ICCV2017的文章,主要使用multi-task的GAN網路來提取pose-invariant特徵,同時生成指定pose的人臉。 下載連結: 作者: Motivation: 對於大pose的人臉識別,現在大家都是兩種方案:1 先轉正再人臉識別。2 直接學習

論文閱讀You Only Look Once: Unified, Real-Time Object Detection

Preface 注:這篇今年 CVPR 2016 年的檢測文章 YOLO,我之前寫過這篇文章的解讀。但因為不小心在 Markdown 編輯器中編輯時刪除了。幸好同組的夥伴轉載了我的,我就直

目標檢測論文閱讀Relation Networks for Object Detection

Relation Networks for Object Detection 論文連結:https://arxiv.org/abs/1711.11575 程式碼連結:暫無,尚不清楚是否會公開 這個是CVPR 2018的文章,雖然並沒有什麼巧妙的設

論文閱讀Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

這篇論文是在2017年3月22日發表在CVPR上的,作者在這篇論文中提出了一個叫做深度從粗糙到精細化的多工卷積神經網路(Deep MANTA),該模型可以用於對一張圖片中的車輛進行多工的分析。該網路同時執行的多工包括:車輛檢測、部件定位、可見性描述和三維形

[論文閱讀] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

Background 存在什麼問題? 訓練深度神經網路是比較複雜的,因為每層輸入的分佈在訓練過程中都在變化。如果每層輸入的分佈在不停的變化,那我們就需要不停的調整我們的引數去補償這部分變化,這就使得訓練過程更加緩慢。 此外,由於分佈的變化使得使用

論文閱讀Multiple Object Tracking Using K-Shortest Paths Optimization, PAMI2011

 引文: 多目標跟蹤問題通常分為兩步:第一步是與時間無關的目標檢測,即針對每一視訊幀檢測出目標出現的位置,以及在這些位置上出現的置信度;第二步是在時間軸上連線候選目標形成軌跡,在生成軌跡時要儘可能保證同一條軌跡上的所有目標對應同一個真實物體,軌跡數量對應目標

目標檢測論文閱讀Cascade R-CNN: Delving into High Quality Object Detection

Cascade R-CNN: Delving into High Quality Object Detection 樣本減少引發的過擬合 在train和inference使用不一樣的閾值很容易導致mismatch(這一點在下面會有解釋) 作者為

目標檢測論文閱讀Deformable Convolutional Networks

ans 過程 上層 適合 其他 簡易 基礎上 可能 代碼 https://blog.csdn.net/qq_21949357/article/details/80538255 這篇論文其實讀起來還是比較難懂的,主要是細節部分很需要推敲,尤其是deformable的卷積如何實

論文閱讀CVPR2016 Paper list

在過幾天CVPR2016就要召開了,先放個list。 ORAL SESSION Image Captioning and Question Answering Monday, June 27th, 9:00AM - 10:05AM. These

論文閱讀Attention to Scale: Scale-aware Semantic Image Segmentation

注意力機制其實就是對feature map做加權,且加權的權重在訓練的時候學習的。 很多語義分割網路融合了多尺度(多解析度)的特徵,但方法不盡相同。一種常見的結構是SPP(Spatial Pooling Pyramid),另一種方法則是使用不同解析度的分

RefineDet論文閱讀Single-Shot Refinement Neural Network for Object Detection

裁剪 部分 損失函數 過程 bject sin 關聯 增加 問題 摘要 RefineDet是CVPR 2018的一篇論文,文中提出了一個新的single-shot檢測器RefineDet,實現了比二階段方法更高的準確率而且具有與一階段方法相當的效率。RefineDet包括兩

論文閱讀《Human Parsing with Contextualized Convolutional Neural Network》ICCV 2015

概述 論文主要是提出了一個local-to-global-to-local 的框架結構,主要目的是從低層加入情境化的資訊,這個框架是將交叉層內容(cross-layer context),全域性影

論文閱讀Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles

Preface 這是我參加今年智慧城市比賽的任務:車輛精確檢索,看的論文。 Abstract 這篇文章所提出的,網路整體架構為: Deep Relative Distance Learning Triplet Loss 在

論文閱讀Automatic Tooth Region Separation for Dental CT Images

【論文資訊】 Automatic Tooth Region Separation for Dental CT Images Hui Gao 2008 年發表的會議論文 【背景】 提出了該領域研究內容:In order to reconstruct eac

目標檢測論文閱讀RFB Net

Receptive Field Block Net for Accurate and Fast Object Detection 1. Background 這篇論文要解決的問題很簡單,作為單階段的檢測方法,它試圖尋找速度和精度之間的平衡,就像之前很多sing