1. 程式人生 > >1.1 tensorflow常見錯誤記錄(不斷更新)

1.1 tensorflow常見錯誤記錄(不斷更新)

本問主要記錄在除錯tensorflow的過程中遇到的一些問題以及解決辦法.

1. libcudnn.so.x: file too short

解決辦法: 刪除軟連線後重新建立新的軟連線:

# 到cuda目錄
# x為cuda版本
# 0.21 是檔案的小版本號,可以在資料夾內找到檔名檢視
cd /DATA/234/gxrao1/software/cuda-x.0/lib64

# 刪除軟連線
rm -rf libcudnn.so libcudnn.so.x

#修改檔案許可權,並建立新的軟連線

chmod u=rwx,g=rx,o=rx libcudnn.so.x.0.21

ln -s libcudnn.so.x.0.21 libcudnn.so.x

ln -s libcudnn.so.x libcudnn.so

2. Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_INVALID_DEVICE

解決辦法:指定執行GPU裝置號

# x為gpu device id: 0,1,2,3
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "x"

3. (interrupted by signal 11: SIGSEGV)

並提示cudnn版本不對,需要更新cudnn的版本.例如tensorflow1.11版則需要cudnn7.21以後的版本.下載了7.3.0的版本並覆蓋原始檔,就好了. 可以需要重複1.中的步驟來重新建立軟連線.