BAG OF TRICKS FOR ADVERSARIAL TRAINING
阿新 • • 發佈:2020-10-13
對抗訓練是最有效的用於提升模型魯棒性的策略之一。
但是在AT上的許多改進不如簡單地提前停止訓練過程有效。
基礎引數設定的不同對模型的魯棒性有很大的影響。
本文對基礎訓練技巧和超引數的設定在對抗性訓練模型的影響提供了綜合性的評估。
十篇文章中的實現細節:
超引數設定非常不一致,不能直接對這些方法排序。
PGD-AT 在 CIFAR-10 上作為例子
預設設定:
PGD-AT框架
batchsize:128
SGD 優化器
初始學習率:0.1
weight decay 5*10^-4
ReLU
沒有label smoothing
訓練BN
所有模型訓練110epochs
學習率下降因子0.1 在100,105epoch下降
注意 我們的經驗觀測和結論可能不能總是泛化至其他資料集或其他對抗訓練框架,但是我們強調了使用一致實現細節的重要性,能夠在不同的對抗訓練方法之間進行公平的比較。
1. 儘早停止early stopping和warmup熱身
early stop為預設設定
儘早停止對抗強度,在PGD-10可以提升,在AA相反
熱身 學習率 ,影響非常的小
熱身 對抗強度,影響也有限
2. 訓練超引數
batchsize 對於CIFAR-10 batchsize128表現最好
label smoothing 可以在PGD-10和AA下提升1%,但是過度的平滑標籤會下降
optimizer 優化器,大部分的AT方法使用SGD的動量方法。實驗表明基於SGD的方法有相似的表現,而adam表現的更差。
weight decay 權重衰減 對魯棒性影響很大,對準確率影響不大。