1. 程式人生 > >MegDet: A Large Mini-Batch Object Detector

MegDet: A Large Mini-Batch Object Detector

分類網路如ReseNet-50的mini-batch尺寸已經很大了,如8192或16000.但檢測網路的mini-batch尺寸確很小,如2-16。小的batch尺寸有什麼問題?一是訓練時間長,二是無法為BN提供精確的統計資訊。三是正負樣本比例不平衡,如下圖a-b所示。

但是直接增加batch尺寸有什麼問題呢?大的batch尺寸需要比較大的學習率去保持精度,但大的學習率通常會導致無法收斂。為解決這個兩難的問題,論文首先使用“warmup”學習率策略逐步增加學習率,其次使用跨GPU的Batch Norm(CCBN)獲得更好的BN統計。

在影象分類中,基於SGD的梯度等效假設,mini-batch尺寸從N增加到k*N,學習率從r增加大k*r。但對於目標檢測,每個影象中的真值標記數目不同,影象具有不同的真值分佈。論文引入了方差等效假設。對於損失函式l(x,w),其梯度的方差為:

對於大的mini-batch k*N,梯度的方差為:

保持大batch=k*N中的方差與k步小batch=N累計等價:

以上僅是對學習率的闡述,論文用的是wormup策略,即在訓練早期用足夠小的學習率,在一定的迭代後使用固定速度增長。

跨GPU Batch Norm

訓練時間對比

不同的batch size對比