深度學習網路訓練不收斂問題
阿新 • • 發佈:2018-12-11
不收斂描述及可能原因分析
不收斂情景1
- 描述
從訓練開始就一直震盪或者發散 - 可能原因
- 圖片質量極差,人眼幾乎無法識別其中想要識別的特徵,對於網路來說相當於輸入的一直都是噪音資料,比如通過resize的時候,圖片的長寬比改變特別大,使圖片喪失對應特徵;或者tfrecord中圖片大小是(m,n),但是讀取的時候,按照(n,m)讀取。所以loss一直震盪無法收斂
- 大部分標籤都是對應錯誤的標籤
- leaning rate 設定過大
不收斂情景2
- 描述
訓練開始會有所下降,然後出現發散 - 可能原因
- 資料標籤中有錯誤,甚至所有標籤都有一定的錯誤,比如生成的標籤檔案格式和讀取標籤時設定的檔案格式不一樣,導致讀取的標籤是亂碼;或者為標籤中存在的空格未分配對應的編碼,導致讀取的空格為亂碼(在OCR問題中)
- learning rate 設定過大
不收斂情景3
- 描述
訓練開始會有所下降,然後出現震盪 - 可能原因
- loss函式中正則化係數設定有問題,或者loss函式本身有問題。比如,在序列化問題中的label_smoothing設定過大,比如設定為0.9,一般設定為0.1即可(OCR問題中)
- 資料標籤中有錯誤,甚至所有標籤都有一定的錯誤