1. 程式人生 > >[深度學習] 使用Adam無法收斂到最優解

[深度學習] 使用Adam無法收斂到最優解

疑問來源:

比賽實踐中,往往都是先用Adam實現快速收斂後,再使用SGD達到最優解,為什麼Adam無法直接達到最優解呢?

強烈推薦:

ICLR 2018 的一篇論文認為是因為使用了指數滑動平均:

現在的最佳做法:
1. 最新版本Keras的Adam實現中已經支援了amsgrad演算法
keras.optimizers.Adam(lr=0.0012, beta_1=0.9, beta_2=0.9, epsilon=1e-08, amsgrad=True)
2. 依然使用Adam+SGD(with momentum)的方法