1. 程式人生 > 實用技巧 >Tensorflow-gpu訓練SSD時遇到的問題及解決方法

Tensorflow-gpu訓練SSD時遇到的問題及解決方法

訓練環境與步驟參考連結:

https://www.cnblogs.com/hayley111/p/12918678.html

問題一:使用GTX2080的顯示卡,在batch_size只有8的情況下,訓練速度只有2-3秒每步。

另開視窗使用如下指令檢視GPU佔用情況,指令如下:

nvidia-smi -l

結果如下:(如果你和我一樣GPU佔用率很低,說明cuda沒有正常執行)

問題原因:cuda沒有成功啟動,只有cudnn在執行。

解決方法:

第一步:重新切換到cuda10.0

切換cuda版本 tensorflow1.12使用cuda9.0

yolo,tensorflow1.14等使用cuda10.0

cd /usr/local

刪除之前的軟連結

sudo rm -rf cuda

重新建立軟連線到10.0

sudo ln -sf cuda-10.0 cuda

第二步:安裝keras(我這裡選的是2.2.4版本的)

pip install keras==2.2.4

第三步:修改train.py程式碼,增加幾行程式碼如下:

import keras
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
keras.backend.tensorflow_backend.set_session(tf.Session(config=config))

新增位置如下:

重新執行你的訓練指令就可以了。

正常使用GPU訓練的情況下,GPU佔用情況如下。

在我的訓練中,成功啟動cuda後,速度提升了10倍。

問題二:

慢慢補充ing