解決Mask RCNN訓練時GPU記憶體溢位問題
阿新 • • 發佈:2019-02-11
首先自己是個小白對於如何使用GPU跑程式這個學習了一下:
(1)使用的是putty,安裝了Anaconda這個IDE環境,用的conda install tensorflow-gpu安裝的GPU版本tf,之前只是安裝了tf並沒有選擇GPU版本。安裝完GPU版本的tf,可以進入python環境匯入import tensorflow as tf 進行測試一下,如果沒有報錯即為成功。
(2)並在自己Train.ipynb程式碼中新增 import os
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"]="0"
即可呼叫GPU執行。
(3)由於自己的圖片量太大,就報錯大致意思是記憶體溢位。
用top命令檢視GPU程序,發現自己開了好多沒關佔用記憶體量,所以重啟了一下伺服器,
並將一部分引數進行修改將IMAGE_MIN_DIM分別調小一倍。STEPS_PER_EPOCH=1 VALIDATION_STEPS=1 即可進行重新訓練。