使用百度雲主機的GPU主機教程_第二部分
內容提要
第一部分:百度雲主機GPU使用嘗試
第二部分:下載機的軟體安裝(下載機,低配置的機器,用來下載東西)
第三部分:GPU機器的開通和檢視
第四部分:GPU機器的軟體安裝
第五部分:GPU機器做實驗
第一,二,三部分參考上一篇博文
第四部分:GPU機器的軟體安裝
參考老師第二課的cuda安裝教程
參考部落格:http://blog.csdn.net/u011331731/article/details/79332356
前提:
首先檢視apt-get是否是國內:ok
(把阿里雲的追加形式copy進去,update和upgroud 時遇到圖形選擇框,都選擇了keep xxx的那一項(第一個是預設,第二個需要手工調整)))
修改pip的下載地址:ok
1、 新增驅動源
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
2、 安裝Nvidia驅動
sudo apt-get install nvidia-367
sudo apt-get install mesa-common-dev
sudo apt-get install freeglut3-dev
執行上述3命令後應當驗證是否安裝ok
參考:http://blog.csdn.net/u010837794/article/details/63251725
執行完上述後,重啟:
sudo reboot
必須要重啟哦。重啟後執行
nvidia-smi
如果出現了你的GPU列表,則說明驅動安裝成功了
另外也可以通過:nvidia-settings檢視自己機器上詳細的GPU資訊。這個會彈出圖形介面的東西,不建議使用。
3,掛在資料盤到gpu機器,並將相關資訊copy到gpu自帶資料盤中
掛載已經資料的資料盤到gpu機器的目錄下
執行:
mkdir /mntc
sudo mount /dev/vdc1 /mntc
之所以用/mntc而不是常用的/mnt是應為百度雲床將GPU雲主機時自動掛載了一個vdb的磁碟,200G的.這個磁碟佔用了/mnt掛載點.(奇怪的是200G的磁碟在百度雲的控制檯中卻沒有顯示出來)
執行:cp /mntc/download/* /mnt/
將資料盤中/download/資料都copy到Gpu自帶的200G的磁碟中
4,安裝cuda
sudo sh cuda_8.0.61_375.26_linux.run
注意1:
執行後會有一系列提示讓你確認,非常非常非常非常關鍵的地方是是否安裝361這個低版本的驅動:
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?
答案必須是n,否則之前安裝的GTX1080驅動就白費了,而且問題多多。
執行安裝後顯示
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-8.0
Samples: Installed in /home/john, but missing recommended libraries
暫且認為正常。
6,更改配置檔案
vim ~/.bashrc
新增
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
補充說明:新增方式(先了解下vim的基本語法)
(vim ~/.bashrc
後依次執行如下按鍵
輸入,shift+g,自動跳轉到檔案末尾
輸入o,自動換行且轉為輸入模式
輸入shift+insert,自動貼上剪貼簿內容
輸入esc:退出編輯模式
輸入:(注意這裡的:是真的”冒號”,vim中表示命令模式,冒號後的wq!表示寫入+強制退出(w表示儲存,q表示退出,!歎號表示強制),簡單來說就是先儲存在退出)wq!:儲存並且退出
)
再執行:
nvidia-smi看看是否正常。
在測試下剛才安裝是否正常:
cd /usr/local/cuda/samples
cd 1_Utilities/deviceQuery
sudo make
執行正常後,在執行
./deviceQuery
應該會輸出顯示卡資訊,這裡則說明cuda安裝ok。
(若想進步一測試
cd ../../5_Simulations/nbody/
sudo make
./nbody -benchmark -numbodies=256000 -device=0
)
7,安裝cudnn
tar -xzvf cudnn-8.0-linux-x64-v6.0.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
7,安裝tensorflow-gpu
在安裝tensorflow-gpu前需要留意
我們需要把python2的預設環境修改為python3的環境
需要參考文章:http://blog.csdn.net/u011331731/article/details/79185782
將numpy等都安裝一遍後在安裝tensorflow
按照文章中的安裝後再安裝tensorflow
pip install tensorflow-gpu==1.4(pip已經在~/.bashrc檔案總alias為pip3了)
驗證tensorflow的安裝
第五部分:GPU機器做實驗
由於老師的tar包中以及有程式碼了,只需要解壓後,按照實驗步驟執行即可.
實驗09,
實驗10
實驗11
實驗12
這個實驗有報錯,這裡的報錯應該就是第三次作業應該解決的問題