論文閱讀-Rethinking ImageNet Pre-trainging
阿新 • • 發佈:2019-01-14
論文地址: Rethinking ImageNet Pre-trainging
1. 簡述
論文更像是一個實驗報告,通過在二階段的Mask RCNN上設計多個實驗,得到了關於ImageNet Pre-Training的一些結論。
- Is ImageNet pre-training necessary? No
- Is ImageNet helpful? Yes
- Shall we pursuit universal representations? Yes.
2. 從0訓練檢測器
學習ScratchDet作者的觀點:
- 需要能夠穩定梯度的優化手段(BN,GN,SN)
- 需要足夠多的epochs和合適的學習率
- 小資料集上需要增廣(有的模型上貌似增廣是沒什麼用的)
BN在優化過程中如何起作用,論文How Does Batch Normalization Help Optimization? 提到:
- 使得梯度更加穩定,更加可預測
- 可採用更大步長並使用更大學習率來加速訓練
- 阻止loss函式解空間突變:避免梯度消失陷入平坦區域;避免梯度爆炸得到區域性最優解
3.結論
- (1) 數量足夠,迭代足夠的時候,pre-training會加速收斂但是對performance影響不大
- (2) fine-tune並不能減少過擬合
4.實驗設計
- Training from scratch to match accuracy [兩組實驗室採用不同的正則化方法,對比隨機初始化和pre-training的結果得到結論(1)]
- Training from scratch with less data [分別用30k,10k,1k的資料進行實驗得到結論(2)]