1. 程式人生 > 實用技巧 >天河伺服器申請及配置

天河伺服器申請及配置

目錄

申請

  1. 訪問如下連結 https://cloud.nscc-gz.cn/auth/login/
  2. 輸入使用者名稱及密碼
  3. 登入後介面如下, Instance 顯示了目前該賬戶下已存在的伺服器
    • Instance Name 伺服器名稱
    • Image 伺服器系統映象來源資訊
    • Flavor 伺服器硬體配置,在申請伺服器時進行選擇
    • IP 伺服器內網 IP 例如 10.xx.xx.24
    • Status 伺服器目前狀態,active 為開啟狀態
    • Created 系統建立時間
    • Updated 系統更新時間
    • Actions 這裡包含了系統主要操作(重啟,關機,開啟控制檯等)
  4. 點選 create instance
  5. 伺服器硬體型別選擇
    • Instance Name 例項名 ,與系統登入後介面的意義相同
    • Hostname 主機名, 伺服器名稱,對於linux系統來說就是 @之後的名稱,如下圖的 “neu-gpu”
    • Instance Count 例項個數
    • Create Policy 這個是無法改動的
    • Type 選是否含有 GPU
  • Flavor 可以選擇的機器硬體配置 主要需要關注 CPU 核數, RAM 記憶體大小。最前面簡稱, 例如 12C24G_m4000 為 12 核 cpu, 24G 記憶體,m4000為顯示卡型號,有兩種 m4000 和 k80. 在type 為 general 時無後面的GPU型號.
    • Select Boot Source

      預設Image 即可

    • Source 為系統型別。含有 Des 的系統,帶有桌面.一般選擇 ubuntu1604.

      選擇完成後,點選 next

    • Network 介面,

      • Select Network 只有一個,選擇即可。
      • Select Subnet 不需要配置
      • Firewall 不需要配置。
        選擇完成後,點選 next
    • Login

      • Admin Password 為管理員密碼設定,按要求自行設定。
      • Key Pairs 一般不需要配置。
    • 所有配置完成後點選 create 即可建立

    • 等待系統幾分鐘後,會新建一個例項,並出現在列表中。

    • 點選右側 acitions 會彈出 可行的操作。主要用到的是 console, reboot.

    • console 主要用於初期配置,完成系統建立後,儘快聯絡超算工作人員([email protected]),為新的伺服器建立內外網路對映。方便後面配置ssh登入, 上傳程式碼資料等。

配置

初次登入系統推薦:新建一個個人使用者,併為其設定sudo 許可權,使用該使用者配置系統。儘量避免使用root,root許可權過高,防止發生意外。
conda 安裝比較方便,但是裡面的軟體版本一般也不會是最新的,可能出現問題。手動安裝較為繁瑣,但能使用最新軟體版本。

conda 安裝

  • 進入個人家目錄
  • 下載 conda。若伺服器沒有桌面,可使用如下命令下載 wget https://repo.continuum.io/archive/Anaconda3-2020.07-Linux-x86_64.sh最後的檔名,可根據需要選擇,該網址列出了可選的版本。
  • 在家目錄執行 bash Anaconda3-2020.07-Linux-x86_64.sh
  • 一直回車即可,安裝路徑一般為 /home/username/Anaconda3, username 為使用者名稱
  • 安裝完畢後 source .bashrc 啟用環境
  • 安裝tensorflow 並新建環境 conda create -n tf-gpu tensorflow-gpu
  • conda activate tf-gpu 啟用tensorflow 環境。
    參考

顯示卡驅動更新

天河顯示卡預先安裝的顯示卡驅動版本較舊,與cuda所需要的驅動無法匹配,需要手動更新顯示卡驅動。具體流程如下

sudo apt-get purge nvidia-* # 移除舊版本驅動
sudo add-apt-repository ppa:graphics-drivers/ppa 
sudo apt-get update
sudo apt-get install nvidia-418 # 安裝 所需版本驅動,目前tensorflow 2.x 需要 418 版本的驅動

手動安裝

非GPU配置

對於不含GPU的伺服器,直接安裝需要的tensorflow版本即可, 可以按照tensorflow 官方給出的配置方法。一般流程如下

  1. 安裝 python3
  2. 安裝 對應的tensorflow 版本

GPU 配置

可以按照tensorflow 官方給出的教程安裝

ssh登入

天河工作人員收到建立網路對映郵件後,會為你新建的機器建立外部IP,並通過郵件告知。收到回覆郵件後,可使用自己熟悉的ssh軟體, 輸入外網IP, 外網埠進行ssh登入。一般,回覆郵件中IP資訊格式如下

需要注意的問題

  • 更新顯示卡驅動後,會發生圖形介面無法登入的情況。日常實驗如果對桌面需求不大,可以忽略。
  • 儘量在工作日與工作人員溝通