Tensorflow-gpu訓練SSD時遇到的問題及解決方法
阿新 • • 發佈:2020-07-20
訓練環境與步驟參考連結:
https://www.cnblogs.com/hayley111/p/12918678.html
問題一:使用GTX2080的顯示卡,在batch_size只有8的情況下,訓練速度只有2-3秒每步。
另開視窗使用如下指令檢視GPU佔用情況,指令如下:
nvidia-smi -l
結果如下:(如果你和我一樣GPU佔用率很低,說明cuda沒有正常執行)
問題原因:cuda沒有成功啟動,只有cudnn在執行。
解決方法:
第一步:重新切換到cuda10.0
切換cuda版本 tensorflow1.12使用cuda9.0
yolo,tensorflow1.14等使用cuda10.0
cd /usr/local
刪除之前的軟連結
sudo rm -rf cuda
重新建立軟連線到10.0
sudo ln -sf cuda-10.0 cuda
第二步:安裝keras(我這裡選的是2.2.4版本的)
pip install keras==2.2.4
第三步:修改train.py程式碼,增加幾行程式碼如下:
import keras config = tf.ConfigProto() config.gpu_options.allow_growth = True keras.backend.tensorflow_backend.set_session(tf.Session(config=config))
新增位置如下:
重新執行你的訓練指令就可以了。
正常使用GPU訓練的情況下,GPU佔用情況如下。
在我的訓練中,成功啟動cuda後,速度提升了10倍。
問題二:
慢慢補充ing