1.1 tensorflow常見錯誤記錄(不斷更新)
阿新 • • 發佈:2018-12-13
本問主要記錄在除錯tensorflow的過程中遇到的一些問題以及解決辦法.
1. libcudnn.so.x: file too short
解決辦法: 刪除軟連線後重新建立新的軟連線:
# 到cuda目錄 # x為cuda版本 # 0.21 是檔案的小版本號,可以在資料夾內找到檔名檢視 cd /DATA/234/gxrao1/software/cuda-x.0/lib64 # 刪除軟連線 rm -rf libcudnn.so libcudnn.so.x #修改檔案許可權,並建立新的軟連線 chmod u=rwx,g=rx,o=rx libcudnn.so.x.0.21 ln -s libcudnn.so.x.0.21 libcudnn.so.x ln -s libcudnn.so.x libcudnn.so
2. Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_INVALID_DEVICE
解決辦法:指定執行GPU裝置號
# x為gpu device id: 0,1,2,3
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "x"
3. (interrupted by signal 11: SIGSEGV)
並提示cudnn版本不對,需要更新cudnn的版本.例如tensorflow1.11版則需要cudnn7.21以後的版本.下載了7.3.0的版本並覆蓋原始檔,就好了. 可以需要重複1.中的步驟來重新建立軟連線.