這一屆科研計算人趕DDL紅寶書:學生篇
問:實驗室的硬體條件好壞對你的科研有多大影響?
答:啥條件都行,沒有影響。
我們堅信以下三點:
1、科學家就是專門負責搞科研的;
2、不依賴別人,你的研究效率和節奏必須掌握在你自己手裡;
3、不管是嘗試有風險的新穎專案,還是運用深度學習手段,科研多試錯才能出好東西。
有老師跟我們吐槽說,一天天地忙著維護環境,整得跟運維工程師一樣了,太耽誤事兒。想找學生幫忙吧,他們很多也不懂啊~
老師們的碩博後們也苦不堪言,本專業要學的東西已經多到爆炸,又要理論還要搞實驗,還要學大量計算機專業知識……
你這邊資料剛拿到手,別人文章都發了……救救孩子吧。
守著大把機器的,不見得有恃無恐;
得不到的,永遠在騷動,甚至還會掉頭髮。。。
我們為這一屆科研計算人準備的趕DDL紅寶書分為上下兩篇:
《學生篇》
一、你們具體怎麼幫我們搞科研的?展開說說
二、在雲上和在本地跑任務有什麼區別?
三、我自己也會上雲,為啥要選你們?
四、你們跟超算比怎麼樣,有區別嗎?
《老師篇》
五、我是一個老師,你們對我的科研工作/團隊管理有什麼幫助?
六、我是藥物/生物/化學專業方向的,你們能做到什麼程度?
七、我是積體電路/微電子專業方向的,你們能做到什麼程度?
八、我是力學/熱能/機械工程專業方向的,你們能做到什麼程度?
你想問的,這裡都有答案。
你想要的,我們能提供更多。
以下是學生篇
一、你們具體怎麼幫我們搞科研的?展開說說?
1、你們面向的是哪些科研方向的人?
四大類:
積體電路/微電子專業方向,包括物理電子學/電路與系統/微電子學與固體電子學等專業;
藥物/生物/化學專業方向,包括生物化學與分子生物學/化學工程/生物化學/生物工程/藥物化學/分析化學/高分子化學與物理等專業;
力學/熱能/機械工程專業方向,包括流體力學/工程力學/機械製造及其自動化/車輛工程/工程熱物理/熱能工程/動力機械及工程/流體機械及工程/航空宇航製造工程等專業;
以及高校或科研機構的AI訓練平臺、虛擬模擬實驗室等等。
2、你們是怎麼幫助我們這些搞科研的人的?
兩點結論:
1、讓大家更專心做科研,提升高校及科研機構師生的整體科研效率,讓IT能力跟上科研能力。
2、避免大家因為資源不夠而不得不選擇短平快的研究,不敢嘗試。
具體分成以下四個維度:
一整套針對應用優化的自動化科研環境,即開即用;
海量資源加智慧決策輔助,大幅提升計算效率同時降低成本;
有針對老師需求的獨特場景(這一點後續單獨展開);
讓IT能力跟上科研能力,視覺化操作,輕鬆上手。
3、你們是通過哪些手段大幅提升計算效率的?
應用雲端優化、即開即用的雲平臺、雲端海量資源、Auto-Scale、排程器……
具體可見以下實證:
Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?
LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬體配置
怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed模擬效率提升55倍?
4、一整套科研環境指什麼?
包括了應用環境和底層的執行環境。
我們為使用者提供從登入桌面、開啟應用、配置、提交任務、自動上雲開機執行任務並自動關機、檢視結果進行除錯……使用者所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用滑鼠簡單點選即可完成。
5、具體降低了什麼工作量?
整套自動化環境避免了大量手動操作,也降低了出錯概率。
工具的最大價值,是把人從機械性的重複勞動中解放出來,騰出時間來思考更重要的事。
比如,一百個任務一個個手動寫?一百臺機器一個個登陸上去裝應用,配置環境?任務跑著跑著失敗了,手動一個個重來?
避免重複勞動,一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?
也不需要團隊每個人重複一遍同樣的學習過程,做個模板它不香嗎?
6、你們說的應用或者任務,指的是什麼?
藥物/生物/化學/積體電路/微電子/力學/熱能/機械工程/人工智慧專業相關的軟體/工具。
藥物/生物/化學方向的有Autodock Vina、NetMHC、Qvina、Amber、MaterialsStudio、GATK、VASP、Rosetta、Schrödinger、BCFtools、Gromacs、FastQC、DeltaVina、Gaussian等;
積體電路/微電子方向的有Innovus、Spectre、Genus、Dracula、Virtuoso、Ncsim、PowerSI、Xcelium、PT、DC、VCS、VC、FM、Verdi、OPC Proteus、Tmax2、HSPICE、Spyglass、Starrc、Calibre、Tessent、nmLVS、nmDRC、xACT、xL、xRC等;
力學/熱能/機械工程方向的有Abaqus、Autodesk、Bladed、CFX、COMSOL、Fluent、HyperWorks、LS-DYNA、Matlab、Mechanical、MSC Adams、MSC Nastran、StarCCM、SOLIDWORKS、VASP、WRF等;
人工智慧方向的有Pytorch、Mxnet、Tensorflow、Caffe2、Miniconda、Scikit Learn/OpenCV、Pylearn2、Keras等。
7、你們和這些軟體/工具,有什麼區別呢?
一句話概括,我們是EDA/CAE/CFD/生物/化學/AI計算雲平臺,通過我們可以在短時間內調集海量資源,為上述軟體/工具加速,從而搶在各種科研deadline之前跑完任務,拿到結果。
關於我們的其他優勢與技術能力,可以通過後面的問題了解。
8、你們哪裡來的計算資源?
目前我們從多家雲廠商調集海量多雲資源。
9、有時候為了搶幾臺機器都要跟實驗室的師兄弟姐妹鬥智鬥勇,你們的資源真有那麼多?
雲上資源非常多,我們曾經根據IDC報告推測國內雲廠商的伺服器總量超過116萬臺,2020年中國公有云服務市場的全球佔比為6.5%,可大致估算出全球公有云廠商的伺服器總量超過千萬臺。
重點是,這些機器都是可用資源。
10、支援AWS/華為雲/GCP/Azure/阿里雲/騰訊雲……嗎?
國內外主流雲廠商我們都支援。
11、你們跟雲廠商有什麼區別?
我們是從應用出發,為應用定義的雲平臺。
而云廠商主要在IaaS層,距離使用者的實際應用還有非常長的距離。
在雲的基礎架構和應用之間,需要藉助應用優化、多雲環境支援等方式來滿足使用者需求。
12、那我直接用雲廠商是不是就行了?
參考上一個答案。
直接用雲廠商需要做大量的IT除錯,而我們已經對接了眾多主流雲廠商的API,可以用統一的方式方法完成自動化部署,簡化使用者使用雲資源的方式,降低學習成本,幫助使用者高效地用好雲,將精力集中在科研任務上。
13、聽說還有個雲管平臺,跟你們有什麼不同?
我們更貼近應用,在雲管平臺之上。
具體可檢視《靈魂畫師,線上科普多雲平臺/CMP雲管平臺/中介軟體/虛擬化/容器是個啥》
14、之前上過雲,發現有些型別的資源比較少(如部分型號的GPU),需要分別從幾個不同雲廠商調資源,你們支援嗎?
我們支援多雲。
多雲指使用來自多個雲廠商的多種服務,可以最大限度利用不同雲廠商的不同優勢,就像你說的從幾個不同雲廠商調資源。而在產品價格、地域選擇,多雲也更有優勢。
15、雲上的虛擬機器靠譜嗎?效能可以嗎?
放心,效能相當,並可以更好。
兩方面原因:
1、雲上的硬體更新快(詳見第54問);
2、雲上虛擬化效能逐步接近裸機。
16、各個雲之間的虛擬機器效能有差異嗎?我不會選怎麼辦?
有。我們可以為使用者提供專業建議。
17、雲上用的機型是超執行緒的還是物理核的?
大多數雲廠商支援開啟和關閉超執行緒。
18、我做的課題需要特定型別的計算資源,而且可能需要好幾種,雲上有GPU/大記憶體資源嗎?
有,我們和雲上的資源是保持同步的。
包括但不限於超大記憶體、超大硬碟、網路優化、GPU等資源,並且十分靈活,即開即用,隨關隨走。
我們對不同型別雲端資源有非常詳盡的研究分析,具體看《【2020新版】六家雲廠商價格比較:AWS/阿里雲/Azure/Google Cloud/華為雲/騰訊雲》
19、License在雲上能正常用嗎?
License無論在雲上還是本地都能正常使用。
在這篇《EDA雲實證Vol.4:國內最大規模OPC上雲,5000核並行,效率提升53倍》中,我們將License Server分別部署在本地和雲端,計算結果完全一致,叢集執行均無中斷,GUI啟動均正常。
20、你們有自己的資源中心嗎?
公有云以及第三方IDC合作共建的資料中心。
21、使用機器需要排隊嗎?
正常使用雲上資源無需排隊。
如果是上萬核那種的,建議提前聯絡我們調配資源。
22、那啟動機器需要多久?
除了特殊機型,啟動單機的時間幾乎可以忽略不計。
如果是叢集,根據叢集規模大小需要若干分鐘的等待時間。
23、發paper、趕實驗工期、開組會……我們經常會特別著急臨時要跑一個任務,你們最快多久可以用上?
無需排隊,即開即用,參考前兩個問題。
24、半夜發現實驗結果有問題,第二天就要交了,你們的資源隨叫隨到嗎?
全程操作自服務,白天晚上沒區別。
25、使用過程中遇到問題,你們有人支援嗎?
我們大部分是自服務,如果你們遇到問題,我們也提供人工服務。
二、在雲上和在本地跑任務有什麼區別?
26、我現在常用的應用有好幾個,都是直接放到雲上就可以跑嗎?
是的,我們不僅支援常規應用,也支援使用者自定義安裝。
原先在本地上怎麼用,在雲上就怎麼用。
27、我在自己機器怎麼跑應用,在雲上就怎麼跑嗎?需要每次都配置嗎?
不需要每次都配置。
一次配置,無限使用。
28、從來沒上過雲,你們的雲平臺用起來麻煩嗎?
我們基本不會改變使用者的使用習慣,配置完成之後,使用者跟原先的使用習慣是一致的。
我們支援WebVNC遠端桌面接入和WebSSH遠端命令列接入功能。
詳見《CAE雲實證Vol.5:怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?》
29、搞不定命令列,你們支援圖形介面登入嗎?
我們支援Linux VNC,也支援Windows RDP。
30、多機並行跑任務真的特別快嗎?
雲端的一大特點,就是你用相同的錢,可以讓1臺機器跑100小時,也可以讓100臺機器跑1小時,後者就是多機並行,能夠大大節省跑任務的時間。
效果參考問題3。
31、所有的應用都可以靠多機並行來提升效率嗎?
不是所有的應用都支援,我們可以基於經驗為使用者提供建議。
有些應用本身不支援多程序處理,有些應用雖然支援分散式但對分散式支援並不好,也就無法依靠多機並行來提升效率,但我們可以通過為其尋找更適合的機型、提升自動化程度等多個角度來提升效率。
不同機型對應用效率的提升有多大?看這篇《CAE雲實證Vol.5:怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?》
32、使用你們的平臺需要自己安裝作業系統嗎?
不需要,可以選擇需要什麼作業系統。
33、我跑的應用沒有windows版本,你們支援linux系統嗎?
支援。
34、雲上可以支援叢集嗎?
可以。
我們支援LSF/SGE/Slurm叢集。
35、我習慣了自己寫程式碼,能不能直接通過程式碼來調叢集?
對於本身對應用工作流的理解和程式設計能力超強的使用者,我們提供更高階使用者模式,可以直接根據自己寫的指令碼,通過Web瀏覽器選擇新建叢集,然後按需動態地在雲端建立HPC叢集。
36、雲上的叢集也像本地一樣需要一臺臺部署嗎?
不需要。
傳統IT模式下,通常都是先構建一個固定規模的叢集,然後提交任務,當全部任務結束後再關閉叢集。
我們實現了雲上叢集的自動化部署,只需點選幾個按鈕,5-10分鐘即可開啟叢集,並在任務結束後自動關機。詳情可參考《EDA雲實證Vol.1:從30天到17小時,如何讓HSPICE模擬效率提升42倍?》
37、訪問叢集會很麻煩嗎?
訪問叢集,既可以通過命令列,也可以通過WebVNC圖形介面方式直接訪問。
我們為所有使用者免費提供WebVNC功能,自動化建立到訪問叢集:
1、通過Web瀏覽器登入fastone平臺;
2、在Web介面新建叢集、配置資源;
3、在已建立的叢集點選WebVNC遠端桌面圖示(同時提供WebSSH遠端命令列功能);
4、跳轉到虛擬桌面,可在該桌面中操作應用。
38、雲端硬體該怎麼選?有什麼講究嗎?
需要根據具體的應用而定。
具體可參考下圖:
三、我自己也會上雲,為啥要選你們?
39、我之前用過雲,為啥還要選你們?
我們對接了幾乎所有的主流雲廠商,多雲的優勢參見第14問。
我們還能帶來許多其他方面的提升,具體可參考後面幾個問題。
40、我們實驗室裡才幾臺機器,天天維護頭就很大了,雲上這麼多機器還不得把自己搞禿了?
雲上的執行環境都是自動化配置的,不需要人工干預,使用者還可以通過平臺進行統一管理和監控,方便易操作。
舉個例子,我們的Auto-Scale功能可以自動監控使用者提交的任務數量和資源的需求,動態按需地開啟和關閉所需算力資源,在不夠的時候,還能根據不同的使用者策略,自動化排程本區域及其他區域的目標型別或相似型別例項資源。
所有操作都是自動化完成,無需使用者干預。
下圖就是開啟Auto-Scale功能後,使用者某專案一週之內所呼叫雲端計算資源的動態情況。
其中橙色曲線為OD例項的使用狀況,紅色曲線為SPOT的使用狀況。
可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。Auto-Scale功能可以根據任務運算情況動態開啟雲端資源,並在波峰過去後自動關閉,讓資源的使用隨著使用者的需求自動擴張及縮小,最大程度匹配任務需求。具體戳《EDA雲實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?》
41、是不是可以認為你們就是個排程器?
排程器是我們平臺的一個重要元件。
42、你們這個排程器是怎麼個智慧法?
我們是基於使用者策略的雙層智慧排程。
上層排程程式支援靈活的使用者策略:
-基於位置
-基於效能
-基於成本
-基於團隊/組織目標……
下層排程程式滿足應用要求:
-基於Slurm/LSF/SGE/PBS的工作任務
-基於容器的K8S工作任務……
智慧排程使用者策略詳情看這個《生信雲實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》
43、資料怎麼做到雲上、線下同步?
我們有專門的資料傳輸工具DM(Data Manager),讓使用者無需在多套認證系統之間切換,使用統一的身份認證即可傳輸資料,並自動關聯雲端叢集進行計算,不改變其原有的使用習慣。
44、任務跑得怎麼樣可以在平臺上監控嗎?
提交任務後,可以在監控介面中檢視任務和叢集執行情況。
我們也可以在介面上檢視任務執行的日誌。
我們還支援實時檢視任務本身的狀態,比如Fluent的殘差曲線,監控計算的收斂情況。
45、老師想搞深度學習,需要很多GPU,但有時候雲上連幾塊GPU都很難搶到,怎麼辦?
一般來說單家雲廠商的GPU可用資源是比較有限的,我們曾經在一個任務中成功地呼叫了155塊NVIDIA Tesla V100,單個公有云廠商單區域資源未必能夠隨時滿足這種需求。這裡面就還涉及到跨雲排程。
具體可以看《生信雲實證Vol.6:155個GPU!多雲場景下的Amber自由能計算》
46、我試過自己搶雲廠商的SPOT,雖然確實很便宜,但非常難用,隨時會斷掉,你們對SPOT支援到什麼程度?
由於SPOT一定會被搶走,我們的建議是用SPOT去算那些單個任務小總數卻很多的東西。
比如生物/化學計算裡的分子對接。常規分子對接任務幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態。而且我們平臺具備自動重試功能,一個任務被中斷可以自動重新提交,任務之間互相不影響,重新提交單個任務影響很小。
四、你們跟超算比怎麼樣,有區別嗎?
47、平時用超算經常排隊用不到,你們說自己即開即用,難道你們的機器規模比超算還大?
確實比超算大,而且不在一個量級。
我們曾經盤點了中國已落成的主要超算中心的總節點數量,總數為54588個,其中未包括一些正在建設中的超算中心,以及小型超算中心。
即便加上這些數量,中國超算中心的總節點數量級也未過十萬。
而根據IDC公佈的中國公有云市場份額佔比,阿里雲以46.5萬臺伺服器搶下了超過40%的市場份額,我們據此反推出國內雲廠商的伺服器總量超過116萬臺,超算中心與其完全不在一個數量級,可以看下圖感受一下差距。
48、這麼大規模的雲資源,我們都能用嗎?
短時間內可獲取海量資源正是雲資源特有的優勢。
我們曾用AutoDock Vina上雲,呼叫了十萬核CPU資源做分子對接,詳見《生信雲實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》
49、GPU也一樣能用嗎?
可以,我們曾經在一個任務中呼叫了155塊NVIDIA Tesla V100做Amber自由能計算,詳見《生信雲實證Vol.6:155個GPU!多雲場景下的Amber自由能計算》
50、我們常用的超算中心機器配置比較固定,選擇比較少,雲上可以選嗎?
雲端計算中心能夠給使用者提供更為豐富的計算資源選擇。
如某公有云廠商的企業級雲伺服器分為通用型、計算型、記憶體型、大資料型、GPU型、本地SSD型、高主頻型、FPGA型、彈性裸金屬九大類,其中每一種型別還可以選擇與不同儲存和網路的組合,可根據需求自由選擇。
51、你們支援的應用跟超算差不多嗎?
我們支援所有主流科研應用,以及使用者自編譯的科研工具。
行業方向方向,除了生物/化學計算和CAE/CFD方向,還有EDA。
52、不太懂IT,看到Linux就束手無策,我還能用你們這個雲平臺嗎?
可以的,我們支援Windows系統。
另外,由於分散式計算場景大部分基於Linux系統,我們可為使用者提供圖形化介面,基本不改變操作習慣,通過簡單的滑鼠操作就可以跑任務,上手非常快。
53、怎麼申請你們的資源?手續麻煩嗎?週期要多久?
我們的雲平臺即開即用,3分鐘即可使用,無需繁瑣的申請流程。
而幾乎每家超算中心都有一套申請、稽核、使用流程,平均需要5.8個步驟。以國家超級計算天津中心為例,其步驟就多達8步。
54、我們學校的超算中心總是在用好多年前的舊機器,非常慢,實驗室的情況稍微好一點,你們雲上有新硬體嗎?
你在雲上隨時可以用到最新的硬體。
舉個例子,2019年4月3日上午,Intel在太平洋兩岸近乎同步釋出了代號Cascade Lake的第二代至強可擴充套件處理器。當天中午12點,國內某雲廠商便宣佈其基於Cascade Lake的全新一代通用計算增強型雲伺服器C6正式轉為商用。
超算就要慢得多了,超算中心從規劃設計到正式上線需要經歷若干年的時間,能夠在上線時配置當年上市的硬體已經是其規劃能力的最佳體現,其最新硬體更新週期至少要以年為單位。
55、超算資源有時候跑著跑著就被強制回收了,你們也會有這種情況嗎?
我們提供的是獨佔資源,不會被搶走。
56、我們之前用超算都是共享資源,不能改,也不能自己裝一些元件,你們可以嗎?
我們提供的是獨佔資源,使用者擁有管理員許可權,安裝什麼、如何使用均由使用者自己做主。
57、用超算總感覺限制比較多,你們有什麼限制嗎?
我們的平臺沒有什麼限制,連網即用。不但如此,我們提供的是一整套科研環境,詳見第4問。
58、你們和超算還有什麼區別?
具體可以看這篇《國內超算髮展近40年,終於遇到了一個像樣的對手》
本期的《這一屆科研計算人趕DDL紅寶書:學生篇》就到這裡了。
在下一期《老師篇》中,我們將從老師視角和專業應用的角度出發,來看看高校計算雲平臺對科研工作所帶來的幫助。
敬請期待哦~
- END -
我們有個科研計算雲平臺
整合多種科研應用,大量任務多節點並行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選視覺化介面,無需程式碼
支援高階使用者直接在雲端建立叢集
掃碼免費試用,送300元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?
LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬體配置
揭祕20000個VCS任務背後的“搬桌子”系列故事155個GPU!多雲場景下的Amber自由能計算
怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed模擬效率提升55倍?
關於為應用定義的雲平臺:
EDA雲平臺49問國內超算髮展近40年,終於遇到了一個像樣的對手
速石科技(ID:Fastone_tech)
我們致力於構建為應用定義的雲,讓任何應用程式,始終以自動化、更優化和可擴充套件的方式,在任何基礎架構上執行。希望和你共同建立持續迭代的多雲世界觀。
說出你的應用,我們就有故事~~
(你要是嘮這個我就不困了。)