Yolo v2 訓練 NAN解決過程

阿新 • • 發佈：2019-01-09

問題描述

今天在用yolo訓練自己的資料集的時候，一開始訓練過程中的loss還很正常地在下降。結果到了幾個個batch的地方突然就出現loss = nan的情況。其實到現在自己也沒有發現到底是什麼導致了nan，但是參考上面這篇文章，至少暫時解決了這個問題。

解決過程

1)首先檢查了程式碼是不是對的。一般出現nan，第一反應是：會不會哪裡出現了分母為0，或者log的真值為負數這樣的情況。然後在自己修改過的原始碼裡面檢查了一遍，發現並沒有出現這個問題。

2）然後參考上面這篇文章，檢查了一下我的資料集有沒有問題。首先圖片自己看過是沒有問題的，然後拿另外一個模型在這個資料集上跑，也沒有問題。因此排除資料集出問題的可能。

3）最後擔心是不是梯度在某一個batch的時候突然爆炸了。因此修改原始碼detector.c，訓練的時候每一個batch都列印一下當前的loss。發現出現nan之前都會有一個batch的loss=inf。因為yolo的loss函式的定義就是均方差，因此，loss就等於梯度的平方。所以判斷應該是某一個batch使得梯度突然增大。參考caffe的方法。設定一定的閾值，使得當梯度超過這個閾值的時候，直接設定為該閾值大小。暫時解決了nan的問題

Yolo v2 訓練 NAN解決過程

問題描述

解決過程

Yolo v2 訓練 NAN解決過程

yolo的訓練和測試過程中踩過的坑

目標檢測之三 Win10 +VS2015+雙gtx Titan X使用YOLO v2訓練VOC資料

深度學習（四）——目標檢測演算法YOLO的訓練和檢測過程的基本思路介紹

darknet yolo v2 訓練自己的資料

yolo v2 訓練自己資料集遇到的問題

Yolo V2訓練自己資料集

【計算機視覺】【神經網路與深度學習】YOLO v2 detection訓練自己的資料

yolo v2 損失函式原始碼（訓練核心程式碼）解讀和其實現原理

jenkins內存溢出的一些解決過程

wnTKYg 挖礦工木馬解決過程

web項目存數據到數據庫，中文亂碼，解決過程

linux中企業網站中病毒的解決過程

一個應用程序無法啟動錯誤的解決過程

ionic start 創建ionic項目報錯，及解決過程

oracle11G 已開啟監聽，但遠程連接依舊無監聽解決過程

WKWebView中MessageHandler的內存泄漏問題解決過程

通過ssh遠程執行命令導入定時任務報錯----解決過程

Apache awstats安裝報錯解決過程適合初學者

mariadb插入中文數據亂碼解決過程

Yolo v2 訓練 NAN解決過程

問題描述

解決過程

相關推薦