阿里雲Tesla P100GPU雲伺服器搭建TensorFlow環境
最近基於深度學習的影象識別專案需要用到GPU加速,申請了阿里雲的GPU伺服器,在搭建過程中遇到了一些問題,現在將搭建過程記錄
環境: 阿里雲GPU伺服器Tesla P100
作業系統: Ubuntu 16.04
準備安裝包(這個是我用來測試搭建的包,如果想用新版本,請自行下載,對應的包檔案會提供下載連結):
Nvidia驅動: NVIDIA-Linux-x86_64-390.46.run
官網下載地址: http://www.nvidia.cn/Download/index.aspx?lang=cn (選好自己的GPU型號之後可以直接下載)
CSDN下載地址:https://download.csdn.net/download/u013092293/10403033
CUDA包:cuda_8.0.61_375.26_linux.run
官網下載地址: https://developer.nvidia.com/cuda-toolkit-archive (下載時需要註冊賬號)
檔案太大發不上來,請自行下載
CUDNN包:cudnn-8.0-linux-x64-v6.0.tgz
官網下載地址: https://developer.nvidia.com/rdp/cudnn-archive(下載時需要註冊賬號)
CSDN下載地址:https://download.csdn.net/download/u013092293/10403092
本地環境
windows
xshell
開始前注意事項
使用xshell遠端申請的GPU伺服器(具體使用方法百度),如果連線失敗
1.檢查登入名和密碼
2.檢查阿里雲GPU伺服器的安全組規則(需要開啟埠22,在選擇協議型別時設定SSH(22),自定義TCP都可以)
3.檢查公司的防火牆限制
開始安裝
1.更新源
sudo apt-get update
2.python環境為Ubuntu 16.04預設的python環境,預設有python 2.7.12,python 3.5.2,現在我們使用python 3.5.2
3.安裝pip3工具
sudo apt-get install python3-pip
4.安裝lrzsz,使window可以向linux伺服器上傳檔案
sudo apt-get install lrzsz
5.上傳三個包檔案
在伺服器終端:
rz
彈出框中選擇
NVIDIA-Linux-x86_64-390.46.run,cuda_8.0.61_375.26_linux.run,cudnn-8.0-linux-x64-v6.0.tgz
6.安裝nvidia驅動
cd到上傳檔案目錄
執行驅動安裝
sudo sh ./NVIDIA-Linux-x86_64-390.46.run
掛載Nvidia驅動
modprobe nvidia
檢視nvidia是否安裝成功
nvidia-smi
7.安裝cuda
cd到上傳目錄
sudo sh ./cuda_8.0.61_375.26_linux.run
開始執行後會輸出很多資訊,使用空格翻頁,到底後出現幾個提問,按順序填寫
Do you accept the previously read EULA? accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 xxx.xx? n
Install the CUDA 8.0 Toolkit? y
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]: 回車
Do you want to install a symbolic link at /usr/local/cuda? y --(生成cuda快捷方式)
Install the CUDA 8.0 Samples? y --(安裝CUDA8.0的例子,可以選擇不安裝)
Enter CUDA Samples Location
[ default is /root ]: 回車
8. 設定CUDA環境變數
sudo vim ~/.bashrc
按G到最後一行,按i開始進行插入
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda-8.0
esc --> :wq
儲存退出
配置立即生效
source ~/.bashrc
9. 安裝CUDNN(其實為解壓拷貝)
cd到檔案上傳目錄
解壓cudnn
tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz
開始拷貝(如果都按上述步驟來的話,下面的命令可直接執行)
sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*
10.安裝TensorFlow GPU版本
當前選擇為tensorflow 1.3版本,
方法一:網好的話使用
pip3 install tensorflow-gpu==1.3
方法二:網不好的話,提供清華映象站地址:https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/
下載下whl檔案後安裝:
pip3 install tensorflow_gpu-1.3.0rc2-cp35-cp35m-linux_x86_64.whl
安裝過程中可能會因為網路原因出現中斷,多安裝幾次
11.安裝完成之後
$ python3
> import tensorflow
>
不報錯,即為安裝成功