1. 程式人生 > >使用百度雲主機的GPU主機教程_第二部分

使用百度雲主機的GPU主機教程_第二部分

內容提要

第一部分:百度雲主機GPU使用嘗試

第二部分:下載機的軟體安裝(下載機,低配置的機器,用來下載東西)

第三部分:GPU機器的開通和檢視

第四部分:GPU機器的軟體安裝

第五部分:GPU機器做實驗

第一,二,三部分參考上一篇博文

第四部分:GPU機器的軟體安裝

參考老師第二課的cuda安裝教程

參考部落格:http://blog.csdn.net/u011331731/article/details/79332356

前提:

首先檢視apt-get是否是國內:ok

(把阿里雲的追加形式copy進去,update和upgroud 時遇到圖形選擇框,都選擇了keep xxx的那一項(第一個是預設,第二個需要手工調整)))

修改pip的下載地址:ok

1、    新增驅動源

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-get update

2、    安裝Nvidia驅動

sudo apt-get install nvidia-367

sudo apt-get install mesa-common-dev

sudo apt-get install freeglut3-dev

執行上述3命令後應當驗證是否安裝ok

參考:http://blog.csdn.net/u010837794/article/details/63251725

執行完上述後,重啟:

sudo reboot

必須要重啟哦。重啟後執行

nvidia-smi

如果出現了你的GPU列表,則說明驅動安裝成功了

clip_image0163dd65c84-4c33-4dde-a89b-dff2da93a763

另外也可以通過:nvidia-settings檢視自己機器上詳細的GPU資訊。這個會彈出圖形介面的東西,不建議使用。

3,掛在資料盤到gpu機器,並將相關資訊copy到gpu自帶資料盤中

掛載已經資料的資料盤到gpu機器的目錄下

執行:

mkdir /mntc

sudo mount /dev/vdc1 /mntc

之所以用/mntc而不是常用的/mnt是應為百度雲床將GPU雲主機時自動掛載了一個vdb的磁碟,200G的.這個磁碟佔用了/mnt掛載點.(奇怪的是200G的磁碟在百度雲的控制檯中卻沒有顯示出來)

執行:cp /mntc/download/* /mnt/

將資料盤中/download/資料都copy到Gpu自帶的200G的磁碟中

4,安裝cuda

sudo sh cuda_8.0.61_375.26_linux.run

注意1:

執行後會有一系列提示讓你確認,非常非常非常非常關鍵的地方是是否安裝361這個低版本的驅動:

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?

答案必須是n,否則之前安裝的GTX1080驅動就白費了,而且問題多多。

執行安裝後顯示

Driver:   Not Selected

Toolkit:  Installed in /usr/local/cuda-8.0

Samples:  Installed in /home/john, but missing recommended libraries

暫且認為正常。

6,更改配置檔案

vim ~/.bashrc

新增

export PATH=/usr/local/cuda-8.0/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

補充說明:新增方式(先了解下vim的基本語法)

(vim ~/.bashrc

後依次執行如下按鍵

輸入,shift+g,自動跳轉到檔案末尾

輸入o,自動換行且轉為輸入模式

輸入shift+insert,自動貼上剪貼簿內容

輸入esc:退出編輯模式

輸入:(注意這裡的:是真的”冒號”,vim中表示命令模式,冒號後的wq!表示寫入+強制退出(w表示儲存,q表示退出,!歎號表示強制),簡單來說就是先儲存在退出)wq!:儲存並且退出

)

再執行:

nvidia-smi看看是否正常。

在測試下剛才安裝是否正常:

cd /usr/local/cuda/samples

cd 1_Utilities/deviceQuery

sudo make

執行正常後,在執行

./deviceQuery

應該會輸出顯示卡資訊,這裡則說明cuda安裝ok。

(若想進步一測試

cd ../../5_Simulations/nbody/

sudo make

./nbody -benchmark -numbodies=256000 -device=0

7,安裝cudnn

tar -xzvf cudnn-8.0-linux-x64-v6.0.tgz

sudo cp cuda/include/cudnn.h /usr/local/cuda/include

sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d

sudo chmod a+r /usr/local/cuda/include/cudnn.h

sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

7,安裝tensorflow-gpu

在安裝tensorflow-gpu前需要留意

我們需要把python2的預設環境修改為python3的環境

需要參考文章:http://blog.csdn.net/u011331731/article/details/79185782

將numpy等都安裝一遍後在安裝tensorflow

按照文章中的安裝後再安裝tensorflow

pip install tensorflow-gpu==1.4(pip已經在~/.bashrc檔案總alias為pip3了)

驗證tensorflow的安裝

clip_image018e4a38162-5e38-4682-89e0-85b25efed106

第五部分:GPU機器做實驗

由於老師的tar包中以及有程式碼了,只需要解壓後,按照實驗步驟執行即可.

實驗09,

clip_image02064f9a54f-0a97-4a67-8cdf-e09c50ed914f

實驗10

clip_image0220803ac29-6bda-4477-9469-a4ee999a6d53

實驗11

clip_image024de5c0821-5336-4d7a-82d1-9b5e9b757af2

實驗12

clip_image0266c4d68e2-2c29-4415-82e8-5d721fdacc54

這個實驗有報錯,這裡的報錯應該就是第三次作業應該解決的問題