1. 程式人生 > >論文閱讀-Rethinking ImageNet Pre-trainging

論文閱讀-Rethinking ImageNet Pre-trainging

論文地址: Rethinking ImageNet Pre-trainging

1. 簡述

  論文更像是一個實驗報告,通過在二階段的Mask RCNN上設計多個實驗,得到了關於ImageNet Pre-Training的一些結論。

  • Is ImageNet pre-training necessary? No
  • Is ImageNet helpful? Yes
  • Shall we pursuit universal representations? Yes.

2. 從0訓練檢測器

   學習ScratchDet作者的觀點:

  • 需要能夠穩定梯度的優化手段(BN,GN,SN)
  • 需要足夠多的epochs和合適的學習率
  • 小資料集上需要增廣(有的模型上貌似增廣是沒什麼用的)

   BN在優化過程中如何起作用,論文How Does Batch Normalization Help Optimization? 提到:

  • 使得梯度更加穩定,更加可預測
  • 可採用更大步長並使用更大學習率來加速訓練
  • 阻止loss函式解空間突變:避免梯度消失陷入平坦區域;避免梯度爆炸得到區域性最優解

3.結論

  • (1) 數量足夠,迭代足夠的時候,pre-training會加速收斂但是對performance影響不大
  • (2) fine-tune並不能減少過擬合

4.實驗設計

  • Training from scratch to match accuracy [兩組實驗室採用不同的正則化方法,對比隨機初始化和pre-training的結果得到結論(1)]
  • Training from scratch with less data [分別用30k,10k,1k的資料進行實驗得到結論(2)]