Yolo v2 訓練 NAN解決過程
問題描述
今天在用yolo訓練自己的資料集的時候,一開始訓練過程中的loss還很正常地在下降。結果到了幾個個batch的地方突然就出現loss = nan的情況。其實到現在自己也沒有發現到底是什麼導致了nan,但是參考上面這篇文章,至少暫時解決了這個問題。
解決過程
1)首先檢查了程式碼是不是對的。一般出現nan,第一反應是:會不會哪裡出現了分母為0,或者log的真值為負數這樣的情況。然後在自己修改過的原始碼裡面檢查了一遍,發現並沒有出現這個問題。
2)然後參考上面這篇文章,檢查了一下我的資料集有沒有問題。首先圖片自己看過是沒有問題的,然後拿另外一個模型在這個資料集上跑,也沒有問題。因此排除資料集出問題的可能。
3)最後擔心是不是梯度在某一個batch的時候突然爆炸了。因此修改原始碼detector.c,訓練的時候每一個batch都列印一下當前的loss。發現出現nan之前都會有一個batch的loss=inf。因為yolo的loss函式的定義就是均方差,因此,loss就等於梯度的平方。所以判斷應該是某一個batch使得梯度突然增大。參考caffe的方法。設定一定的閾值,使得當梯度超過這個閾值的時候,直接設定為該閾值大小。暫時解決了nan的問題
相關推薦
Yolo v2 訓練 NAN解決過程
問題描述 今天在用yolo訓練自己的資料集的時候,一開始訓練過程中的loss還很正常地在下降。結果到了幾個個batch的地方突然就出現loss = nan的情況。其實到現在自己也沒有發現到底是什麼導致了nan,但是參考上面這篇文章,至少暫時解決了這個問題。
yolo的訓練和測試過程中踩過的坑
1.執行main.py,報錯:SyntaxError: Missing parentheses in call to 'print' 錯誤原因:因為安裝的是python3的版本 但是這個程式是2.
目標檢測之三 Win10 +VS2015+雙gtx Titan X使用YOLO v2訓練VOC資料
Win10 +VS2015+雙gtx Titan X使用YOLO v2訓練VOC資料 本文主要是記錄在win10下,yolo v2訓練資料的一整個過程,網上很多是在linux下的,不得不說這個東西還是linux下方便啊,主要依賴項: VS2015或者VS2013都
深度學習(四)——目標檢測演算法YOLO的訓練和檢測過程的基本思路介紹
基礎知識掌握情況決定研究的高度,我們剛開始接觸深度學習時,一般都是看到別人的概括,這個方法很好能讓我們快速上手,但是也有一個很大的缺點, 知識理解的不透徹,導致我們對演算法優化時一頭霧水。我也是抱著知識總結的思想開始自己的深度學習知識精髓的探索,也希望能從中幫助到
darknet yolo v2 訓練自己的資料
darknet訓練自己的資料,官方提供了一個訓練VOC的例子,我們參照這個例子,來訓練我們自己的資料。 1. 準備資料集 首先我們應該準備好我們自己的資料集用於訓練。要訓練一個自己的網路,我們需要有訓練集和測試集。在這裡,我們建立兩個資料
yolo v2 訓練自己資料集遇到的問題
1.CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertio `0' failed. 需要修改所使用的模型cfg檔案中的subdivision的引數。 由subdivisions=
Yolo V2訓練自己資料集
在參照了很多其他的部落格,成功訓練了自己的資料集,這裡記錄一下防止忘記便於以後總結學習。 VOC資料集準備 準備資料 首先準備好自己的資料集,最好固定格式,此處以VOC為例,採用jpg格式的影象,在名字上最好使用像VOC一樣類似I000001.jpg、I000002.j
【計算機視覺】【神經網路與深度學習】YOLO v2 detection訓練自己的資料
轉自:http://blog.csdn.net/hysteric314/article/details/54097845 說明 這篇文章是訓練YOLO v2過程中的經驗總結,我使用YOLO v2訓練一組自己的資料,訓練後的model,在閾值為.25的情況下,Reca
yolo v2 損失函式原始碼(訓練核心程式碼)解讀和其實現原理
前提說明: 1, 關於 yolo 和 yolo v2 的詳細解釋請移步至如下兩個連結,或者直接看論文(我自己有想寫 yolo 的教程,但思前想後下面兩個連結中的文章質量實在是太好了_(:з」∠)_) yolo: https://zhuanlan.
jenkins內存溢出的一些解決過程
jenkins、內存溢出、插件問題公司內網測試jenkins服務器,最近總是出現PermGen space(內存溢出)的問題,解決過程記錄如下1、重啟jenkins查看日誌:3, 2017 10:54:54 udson.ExtensionFinder$Sezpoz _find WARNING: Failed
wnTKYg 挖礦工木馬 解決過程
wntkyg 挖礦工木馬 前一陣部門開發人員說測試服務器反應太慢,我上服務器top一下發現有個程序cpu占到了百分之300,沒有多想以為是開發運行的轉碼程序,直接kill掉,沒在管理,前天又收到服務器反應慢的報告,上去top一下又有個程序占了300的cpu,感覺很疑惑,這個程序跟之前的程序不一樣,沒有
web項目存數據到數據庫,中文亂碼,解決過程
問題 async sql安裝 -s pat character value 127.0.0.1 supported 排查原因: 打斷點,查看到底是在執行存數據庫操作之前就已經亂碼了,還是存數據庫操作後亂碼的。 前者解決方案: 在web.xml裏面加上: <
linux中企業網站中病毒的解決過程
linux中企業網站中病毒的解決過程linux中企業網站中病毒的解決過程1.1 處理過程 和運維人員確認確實出問題了,並詳細確認問題情況。 指定處理方案,先備份已有數據,然後執行命令批量修改回來。 寫解決說明,寫完發給他們的運維。 詢問處理結果,並告知詳細查看日誌,尋找問題發生來源。 提供亡羊補牢解
一個應用程序無法啟動錯誤的解決過程
term top 全部 sdn size csdn pos 過程 -a 作者:朱金燦來源:http://blog.csdn.net/clever101 早上同事向我請教一個問題,說是啟動exe時遇到一個應用程序無法啟動的錯誤,具體例如以下圖:
ionic start 創建ionic項目報錯,及解決過程
解決 錯誤 版本 分享 sta all nbsp events ins 問題描述: 前一次創建利用命令行創建ionic項目一次性成功,第二次沒有運行: $ npm install -g ionic cordova 直接運行: ionic start ionicDemo
oracle11G 已開啟監聽,但遠程連接依舊無監聽解決過程
無法 無法啟動 col min 進入 排查 安裝 ner start 1、連接數據庫顯示無監聽程序,首先查看服務器的oracle監聽服務是否開啟,服務名稱:OracleOraDb11g_home1TNSListener(具體環境中可能不完全一樣,但是認準TNSListene
WKWebView中MessageHandler的內存泄漏問題解決過程
可控 oid sage ken del view removes 既然 rem 背景 項目中使用了WKWebView替換了之前的UIWebView,牽扯到Hybird開發,我們需要和H5交互,所以用到了WKWebViewConfiguration 中的 WKUse
通過ssh遠程執行命令導入定時任務報錯----解決過程
linux ssh su 今天在服務器中通過ssh遠程執行批量導入定時任務時發生了一個問題:總結如下,遠程服務器已設置好ssh秘鑰登錄,登錄用戶為普通用戶,但已設置好擁有免密sudo權限ssh 1.1.1.1 "sudo su -c "echo ‘30 5 * * 5 /bin/sh /root/
Apache awstats安裝報錯解決過程適合初學者
Apache awstats安裝報錯解決** awstats 下載地址:https://jaist.dl.sourceforge.net/project/awstats/AWStats/7.0/awstats-7.0.tar.gz報錯情況(已經完成)這是網頁訪問報錯: 日誌報錯首先我的報錯是這樣子的。解決方法
mariadb插入中文數據亂碼解決過程
efault mark 解決 html href gpo alt 分享 添加 基本情況: 系統:centos 7 mariadb安裝方式:yum 亂碼解決過程: 查看當前數據庫編碼(登錄數據庫後) # show variables like ‘character%‘;