價格OR配套,11項指標盤點國內外AI算力GPU共享服務
隨著核心演算法的突破、計算能力的迅速提高及海量資料的可用,人工智慧(AI, Artificial Intelligence)終於迎來了質的飛躍。以AlphaGo為代表的圍棋AI,對人類最頂級的選手,取得了碾壓式的勝利。人工智慧成為了全球矚目的科技焦點,各路資本、各行各業也紛紛佈局人工智慧,以便在這個關乎未來的關鍵賽場上贏得先機。
人工智慧的需求快速膨脹,從業人員的薪資也水漲船高。據估計,國內AI人才缺口在數百萬以上,與AI密切相關的演算法工程師,平均薪資已接近30萬。如此火熱的行情,吸引了越來越多的學生、程式設計師轉行人工智慧。
然而,透過人工智慧發展的表面喧囂,華為提供的一組數字,又讓人感受到了 “冷靜”:
- 只有4% 的企業已經投資或部署了AI;
- 只有約2% 零售商已經投資或部署了AI;
- 2017年只有約10%的智慧手機內建了AI;
- 全球AI人才的供需比僅有1%。
問題分析
在演算法效能突飛猛進之後,是什麼限制了AI技術的落地?總結起來,以下幾方面因素,正在成為普通企業擁抱人工智慧、程式設計師們轉行人工智慧的攔路虎:
- 模型訓練耗時長:這輪人工智慧浪潮的核心是深度學習,它需要構建複雜的深度神經網路來完成各種任務。這些神經網路可能有成百上千的層數、數十億的節點與訓練引數。這種複雜模型的訓練,往往需要數天甚至數月。這種訓練速度嚴重製約了應用創新。
- 算力成本大:算力是AI的基礎。英偉達(Nvidia)的GPU顯示卡是深度學習主要的算力平臺。得益於人工智慧的火爆,英偉達的股價在過去三年增長了近10倍。然而,以GTX、Tesla等為代表的顯示卡,有著動輒數千甚至數萬的售價。對於個人或業務剛剛起步的公司,AI算力成為一筆昂貴的投入。
- 學習與開發門檻高:人工智慧的基礎涉及高等數學、概率統計、線性代數等,又與程式設計、分散式計算、影象處理與自然語言處理等密切關聯。許多人對人工智慧雖然興趣濃厚,卻不知學習該何處下手。許多公司,面臨人才短缺、開發環境難建等難題,AI業務難以開展與落地。
困難就是機會,需求就是商機。在美國西部淘金熱的時代,真正淘金髮財的少之又少,為淘金客提供飲水、衣服與盆鏟的李維斯們,卻大發其財、綿延至今。現在,AI應用的熱度幾與淘金可比,那麼,面向AI提供算力、環境配套與培訓等服務,是否又是巨大的商機呢?與這個認識可印證的是,
公司篩選
帶著這個認識,我們盤點了國內提供算力、環境配套與培訓等AI基礎服務的企業。我們關心有以下業務方向的企業:
- 提供經濟實惠的算力。鑑於Nvidia一家獨大,AI晶片只見熱炒不見售賣,我們將目標投向那些提供GPU算力租賃的企業。需要指出的是,CPU算力是非常便宜實惠的,但CPU在深度學習計算上效率不高,不是深度學習的主要算力來源。
- 提供AI開發相關的配套服務。AI開發,以Linux為主,需要安裝Tensorflow、PyTorch等至少一種框架,往往還需要安裝OpenCV、Pandas、Numpy等軟體包。如果要分散式訓練,還需要分散式框架的支援。整個過程配置繁瑣、複雜、易出Bug。租賃的主機,能夠預裝這些常用開發包,可大大節省開發人員的時間。
- 提供AI學習相關的培訓服務。市面上的AI培訓課越來越多,但不少是借AI之名將Linux系統、前後端開發、資料分析等內容重新打包,缺少真正的AI培訓課。箇中緣由,一是AI發展很快,培訓課需頻繁更新;二是人才奇缺,優質人才都在做開發。優質AI培訓,是市場的急需。
算力是以上問題的核心。我們以算力共享租賃作為主要的標準來尋找公司。
傳統上,雲端計算是一種主要的算力共享模式。許多大公司,如Google、亞馬遜、微軟及國內的華為、阿里、騰訊、百度等,均提供GPU雲主機。提供雲主機的創業公司UCloud,發展迅猛,與AI Challenger等AI競賽的合作也進一步放大了它的影響力。去年Nvidia推出了一項政策,用於雲與資料中心的顯示卡,與個人客戶的顯示卡相比,算力相近時售價差近十倍。因此,雲主機的租賃,十分火爆的同時,我們的感覺就是一個字—“貴”。
另一種租賃方式是共享主機。它仍採用普通PC或伺服器,不受Nvidia政策的限制,可採用相對經濟實惠的GTX顯示卡(其實GTX 1080Ti高達7~8000千的售價,也是貴!)。使用者可以按需租用這些主機,由於採用了共享經濟的理念,這種方式比較經濟實惠。這些主機可以公司自建,也可以採用P2P方式。最近,這個方向湧現了一批公司。我們所知,
- 國外:FloydHub、VectorDash、Vast.ai與ClusterOne。
- 國內:EasyAI與易學智慧。
它們都怎麼樣呢?且聽下回分解。
比較
我們共選擇了9家相關公司,三家雲服務公司(華為雲、美團雲與UCloud)、四家提供分散式主機的國外公司(見上)、兩家提供分散式主機的國內公司(見上)。資訊如表1所示。
由於相關資料有限,描述未必完全準確,詳情請到公司官網瞭解。提供雲服務的廠家如過江之鯽,這裡只是列出了三家,其他家的價格與服務都差不多。
表1公司官網
公司名 |
官網 |
華為雲 |
https://www.huaweicloud.com/ |
美團雲 |
https://www.mtyun.com |
UCloud |
https://www.ucloud.cn/ |
FloydHub |
https://www.floydhub.com/ |
Vast.ai |
https://vast.ai |
VectorDash |
https://vectordash.com/ |
ClusterOne |
https://clusterone.com/ |
EasyAI 簡單AI實驗室 |
https://www.easyailab.cn/ |
EasyAIforum易學智慧 |
https://gpu.easyaiforum.cn/#/home |
閒言少述,直接上表格。各指標的詳細解讀,請閱文後附錄
表2服務指標比拼-1
公司名 |
價格 |
開發環境配套 |
資料集配套 |
培訓配套 |
討論社群配套 |
華為雲 |
11元/小時 |
無 |
無 |
有 |
有 |
美團雲 |
無 |
無 |
無 |
無 |
無 |
UCloud |
2107元/月 |
無 |
無 |
無 |
無 |
FloydHub |
5元/小時 |
Tensoflow、PyTorch、Keras、MXNet、Caffe等 |
有公開資料集但詳情未知 |
自建教程 |
無 |
Vast.ai |
約2元/小時 |
通常支援Tensorflow、Caffe |
無 |
無 |
無 |
VectorDash |
約4.5元/小時 |
無 |
無 |
無 |
無 |
ClusterOne |
未知 |
Tensorflow等 |
未知 |
無 |
無 |
EasyAI |
僅CPU租賃 |
僅支援Jupyter Notebook |
無 |
Jupyter Notebook有大量案例,部分收費 |
無 |
易學智慧 |
5元/小時
|
Tensoflow、PyTorch、Keras、MXNet、Caffe等 還預裝openCV、Pandas、Numpy、Matplotlib等軟體包 |
學術公開資料集齊備 競賽資料集齊備 |
Jupyter Notebook有大量免費案例 |
論壇版塊多,有深度內容 |
表3服務指標比拼-2
公司名 |
分散式訓練 |
使用者自有資料 |
使用者資料加密 |
儲存與算力的可擴充套件 |
遠端除錯 |
主機形態 |
華為雲 |
可以,但無內建優化 |
支援 |
支援 |
支援 |
雲服務支援 |
公司自有, 雲模式 |
美團雲 |
可以,但無內建優化 |
支援 |
支援 |
支援 |
雲服務支援 |
公司自有, 雲模式 |
UCloud |
可以,但無內建優化 |
支援 |
支援 |
支援 |
雲服務支援 |
公司自有, 雲模式 |
FloydHub |
支援 |
未知 |
未知 |
支援 |
未知 |
公司自有 |
Vast.ai |
可以,但無內建優化 |
支援,但效能不確定 |
未知 |
無 |
未知 |
P2P共享 |
VectorDash |
可以,但無內建優化 |
支援,但效能不確定 |
未知 |
無 |
未知 |
P2P共享 |
ClusterOne |
支援 |
未開放測試 |
未知 |
未知 |
未知 |
公司自有 |
EasyAI |
無 |
無 |
無 |
無 |
無 |
公司自有 |
易學智慧 |
支援 |
支援 |
支援 |
支援 |
支援 |
公司自有 |
表4 算力共享服務總體感受
公司名 |
總體感受 |
華為雲 |
操作複雜,價格貴,沒有面向AI的優化。 |
美團雲 |
操作複雜,價格貴,GPU基本租不到,沒有面向AI的優化, 目前,個人使用者已不可充值,後續發展有待觀察。 |
UCloud |
操作比前兩者簡便,價格貴,沒有面向AI的優化 |
FloydHub |
開發功能較齊備, 有學習內容, 缺少交流社群。 |
Vast.ai |
價格超低,但基本租不到 |
VectorDash |
價格實惠,剛剛上線,也基本租不到 |
ClusterOne |
只開放內測,詳情未知 |
EasyAI |
偏重於AI教學培訓, 租賃算力主要用於學習。 |
易學智慧 |
涵蓋論壇、開發平臺與培訓的完整解決方案, 支援分散式、使用者自定義與加密保護等, 主流框架都支援,資料集最齊備,免費案例多, 後起之秀,功能完備,體驗好。 |
國內廠家的優惠活動
擼羊毛是大家關心的,下面是各家的優惠活動。
表5優惠活動
公司名 |
GPU主機相關的優惠活動 |
華為雲 |
新手體驗活動,但未見GPU專門的活動 |
美團雲 |
無 |
UCloud |
針對AI Challenger競賽,可申請免費GPU(但不一定申請成功) |
EasyAI |
可免費體驗 但沒有GPU提供 |
易學智慧 |
註冊送一小時,完成調查後再送五小時,GTX 1080Ti六小時使用。 高校學生,每付費使用五小時,贈送一小時。 |
總結
可以看到,首先,由於Nvidia政策的原因,傳統雲主機並不是提供GPU算力的經濟方案。可以說,採用這樣的雲主機,還不如自購自建平臺(這樣,Nvidia能賣更多顯示卡,壟斷者都心黑啊)。其次,分散式GPU算力平臺是一個新興方向,相關的企業還比較少,國內外都處於剛剛起步的階段。再次,由於GPU算力的稀缺,這個方向,成長空間巨大。
由於眾所周知的原因,國內使用者使用國外GPU主機是不要想了。就國內而言,簡單AI實驗室處於推廣期,學習資料比較豐富;易學智慧作為後起之秀,提供了比較完備的解決方案,最近又在搞各種優惠活動。這兩家,大家可以去擼羊毛~~~。
附錄:指標詳解
我們採用的11項指標如下:
- 價格:以1080Ti或算力相近的顯示卡為例。
- 開發環境配套:虛擬機器是否預裝深度學習框架及常用軟體包
- 資料集配套:公開資料集主要包括兩類,一是用於學術的公開資料集,二是各種AI競賽的資料集。
- 培訓配套:AI學習的配套教程,既包括算力平臺的使用,也包括AI知識技能的學習。
- 討論社群配套:AI開發所採用的各種框架、開發包,本身就在急速發展中。可以預見,AI開發面臨的bug必然是層出不窮,一個AI學習與討論社群,對於算力租賃是十分必要的配套。
- 分散式訓練:加速AI演算法的訓練與執行,併發是主要手段。然而,現在的併發方法都很複雜很不好用。方便易用的併發執行,對AI開發者很有吸引力。
- 使用者自有資料:具體的AI業務,當然要用業務相關的資料來訓練。支援使用者自定義資料上傳,算力平臺才能支撐各種實際業務的開發。
- 使用者資料加密:使用者資料的隱私保護,重要性不需多言。能否將私人資料保護好,也是使用者挑選算力平臺的重要依據。
- 儲存與算力的可擴充套件:任務的不同,所需要的資料量與計算量,差別可以很大。這就要求算力平臺提供足夠的靈活性,可以讓使用者按需擴充套件資源。
- 主機形態:共享經濟是好東西,優點是實惠,缺點是可靠性可用性的損失。一種形式是公司自建算力平臺,分時租給不同使用者;還有一種徹底的共享——P2P方式,提供主機的也是散落各地的普通使用者。
- 遠端除錯:直接在遠端主機程式設計並不方便。因此,現在有些IDE已經支援遠端除錯。遠端除錯需要遠端主機開啟相應的埠與服務,本地還需要進行配置。雖然工序複雜,但對使用者而言,體驗很好。