天河伺服器申請及配置
阿新 • • 發佈:2020-09-11
目錄
申請
- 訪問如下連結 https://cloud.nscc-gz.cn/auth/login/
- 輸入使用者名稱及密碼
- 登入後介面如下, Instance 顯示了目前該賬戶下已存在的伺服器
- Instance Name 伺服器名稱
- Image 伺服器系統映象來源資訊
- Flavor 伺服器硬體配置,在申請伺服器時進行選擇
- IP 伺服器內網 IP 例如 10.xx.xx.24
- Status 伺服器目前狀態,active 為開啟狀態
- Created 系統建立時間
- Updated 系統更新時間
- Actions 這裡包含了系統主要操作(重啟,關機,開啟控制檯等)
- 點選 create instance
- 伺服器硬體型別選擇
- Instance Name 例項名 ,與系統登入後介面的意義相同
- Hostname 主機名, 伺服器名稱,對於linux系統來說就是 @之後的名稱,如下圖的 “neu-gpu”
- Instance Count 例項個數
- Create Policy 這個是無法改動的
- Type 選是否含有 GPU
- Instance Name 例項名 ,與系統登入後介面的意義相同
- Flavor 可以選擇的機器硬體配置 主要需要關注 CPU 核數, RAM 記憶體大小。最前面簡稱, 例如 12C24G_m4000 為 12 核 cpu, 24G 記憶體,m4000為顯示卡型號,有兩種 m4000 和 k80. 在type 為 general 時無後面的GPU型號.
-
Select Boot Source
-
Source 為系統型別。含有 Des 的系統,帶有桌面.一般選擇 ubuntu1604.
選擇完成後,點選 next -
Network 介面,
- Select Network 只有一個,選擇即可。
- Select Subnet 不需要配置
- Firewall 不需要配置。
選擇完成後,點選 next
-
Login
- Admin Password 為管理員密碼設定,按要求自行設定。
- Key Pairs 一般不需要配置。
-
所有配置完成後點選 create 即可建立
-
等待系統幾分鐘後,會新建一個例項,並出現在列表中。
-
點選右側 acitions 會彈出 可行的操作。主要用到的是 console, reboot.
-
console 主要用於初期配置,完成系統建立後,儘快聯絡超算工作人員([email protected]),為新的伺服器建立內外網路對映。方便後面配置ssh登入, 上傳程式碼資料等。
-
配置
初次登入系統推薦:新建一個個人使用者,併為其設定sudo 許可權,使用該使用者配置系統。儘量避免使用root,root許可權過高,防止發生意外。
conda 安裝比較方便,但是裡面的軟體版本一般也不會是最新的,可能出現問題。手動安裝較為繁瑣,但能使用最新軟體版本。
conda 安裝
- 進入個人家目錄
- 下載 conda。若伺服器沒有桌面,可使用如下命令下載
wget https://repo.continuum.io/archive/Anaconda3-2020.07-Linux-x86_64.sh
最後的檔名,可根據需要選擇,該網址列出了可選的版本。 - 在家目錄執行
bash Anaconda3-2020.07-Linux-x86_64.sh
- 一直回車即可,安裝路徑一般為
/home/username/Anaconda3
, username 為使用者名稱 - 安裝完畢後
source .bashrc
啟用環境 - 安裝tensorflow 並新建環境
conda create -n tf-gpu tensorflow-gpu
conda activate tf-gpu
啟用tensorflow 環境。
參考
顯示卡驅動更新
天河顯示卡預先安裝的顯示卡驅動版本較舊,與cuda所需要的驅動無法匹配,需要手動更新顯示卡驅動。具體流程如下
sudo apt-get purge nvidia-* # 移除舊版本驅動
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-418 # 安裝 所需版本驅動,目前tensorflow 2.x 需要 418 版本的驅動
手動安裝
非GPU配置
對於不含GPU的伺服器,直接安裝需要的tensorflow版本即可, 可以按照tensorflow 官方給出的配置方法。一般流程如下
- 安裝 python3
- 安裝 對應的tensorflow 版本
GPU 配置
ssh登入
天河工作人員收到建立網路對映郵件後,會為你新建的機器建立外部IP,並通過郵件告知。收到回覆郵件後,可使用自己熟悉的ssh軟體, 輸入外網IP, 外網埠進行ssh登入。一般,回覆郵件中IP資訊格式如下
需要注意的問題
- 更新顯示卡驅動後,會發生圖形介面無法登入的情況。日常實驗如果對桌面需求不大,可以忽略。
- 儘量在工作日與工作人員溝通