1. 程式人生 > >降低20%成本,國內首個GPU可用區上線

降低20%成本,國內首個GPU可用區上線

開發十年,就只剩下這套架構體系了! >>>   

2015年,UCloud在國內雲廠商中首先推出了K80-GPU雲主機。此後,我們又相繼推出了P40、V100等GPU雲主機、定製化物理機以及UAI-Train、UAI-Inference等以GPU為基礎的AI產品,為人工智慧使用者持續創造價值。如今,我們更進一步,推出專門的GPU可用區。通過對架構精裁,其相比於普通可用區,GPU價格降低20%,頻寬價格降低64%,並支援10G/25G物理網路和VPC私有網路,憑藉獨享效能、豐富產品互聯、自助購買、按月租賃,幫助使用者避免自行維護GPU叢集做AI訓練的高昂投入。

目前,福建GPU可用區A已對全部使用者開放,並支援在控制檯直接購買下單。

降低20%成本,支援按月付費

GPU使用成本高,一方面是GPU卡本身非常昂貴,另一方面功耗與機櫃成本幾乎佔據了整體成本的40%,而這部分成本可以被有效降低。為此UCloud在國內臻選電力成本較低且符合基礎標準的機房建立GPU可用區。此次上線的GPU可用區位於福建省,為省級骨幹IDC機房,符合國際資料中心標準Tier3,提供移動線路。

UCloud的雲端計算核心原本為標準可用區設計,目的是支撐上萬級別的伺服器,近百種不同的雲端計算服務。為了提升整體價效比,我們花費1周時間,便對GPU可用區快速進行了定製,推出了一個全新版本的迷你型雲端計算核心,內部代號“螞蟻”。“螞蟻”核心壓縮了超過50%的雲控制面成本,依然能支撐起完整的物理雲主機與網路產品並提供穩定的服務。

受益於功耗、機櫃、雲端計算核心攤銷成本的降低,GPU可用區的物理雲單價比UCloud其他標準可用區都要便宜20%。以V100物理云為例,GPU可用區在北京二可用區E的列表單價降低5000元/月,和業內相比也有突出的價格優勢。UCloud亦提供更具價效比的GPU機型可供選擇。

GPU可用區的計費模式與其他可用區一致,物理機支援按月與按年付費,可隨時釋放。使用者不必一次性投入巨大的開支,可自如增減叢集規模,應對市場的動態變化。此外,福建GPU可用區提供移動單線網路,頻寬費用比其他可用區降低64%。

最大單精浮點效能104 TFLOPs,獨享物理機

GPU可用區以成熟的物理雲產品體系為依託。計算、儲存、網路效能均沒有任何虛擬化帶來的額外開銷。這對AI訓練這樣看重絕對效能的場景非常重要。

一臺GPU物理機最大能支援104 TFLOPs的單精度浮點效能,約等於2000顆CPU的算力。採用10G與25G兩套物理網路環境。25G網路帶來更高的叢集運算效率,叢集規模≥10臺計算節點時,均推薦採用25G。和普通可用區提供的GPU雲主機相比,整體效能翻倍。

物理雲主機產品已實現後臺資源交付入庫、系統裝機等流程高度自動化,並支援多種映象、多種RAID模式可選。使用者直接在控制檯點選後就自動執行裝機操作,30分鐘內裝機完成即可使用,免去傳統物理機運輸、搭建、部署、除錯等冗長過程。

物理雲主機裝機中

針對物理機難以避免的硬體故障隱患,UCloud硬體運維團隊維護了詳細的韌體問題列表,發現隱患會及時發起韌體的全網升級;物理雲主機在交付使用者前、使用者退還機器後均會自動執行完整的硬體檢測。此外物理雲集成了UCloud監控平臺,通過監控提前發現磁碟故障、GPU卡溫度過高等硬體問題,並通知NOC團隊快速處理(7*24小時)。

GPU物理雲的閘道器有A/B兩套互備叢集,網路流量可在AB叢集之間平滑切換。由於此架構,在主網關出現故障時能實現快速切換到備用閘道器,最小化對使用者的影響;亦能通過叢集切換實現網路架構的平滑升級。通過這套模式,北京地區的物理雲集群實現了從10G閘道器到25G閘道器的線上動態升級,使用者除了低峰期網路瞬斷外完全無感知。未來GPU可用區的閘道器也能通過這種能力不斷更新版本。

物理雲網關互備叢集

豐富的產品互聯

GPU可用區支援標準的網路產品,包括彈性EIP、私有網路VPC、NAT閘道器等。未來計劃將上線高速通道UDPN,和廣州可用區互聯。

在AI訓練場景下,TB級別的訓練資料如何搬遷上雲是使用者的核心訴求。UCloud提供高效能NAS盤櫃寄送服務,可支援最大100T的離線資料搬遷,傳輸作業完成後,會以低階格式化方式擦除資料,以確保資料安全。

分散式訓練場景下通常需要大容量的中央儲存節點。GPU可用區目前提供SSD磁碟的高效能物理機作為儲存節點。後續將提供UFS(分散式檔案儲存)產品,給使用者提供最優的儲存選擇。

對福建GPU可用區有任何建議和疑問,歡迎點選http://ucloudtml.mikecrm.com