1. 程式人生 > 其它 >這一屆科研計算人趕DDL紅寶書:學生篇

這一屆科研計算人趕DDL紅寶書:學生篇

問:實驗室的硬體條件好壞對你的科研有多大影響?

答:啥條件都行,沒有影響。

我們堅信以下三點:

1、科學家就是專門負責搞科研的;

2、不依賴別人,你的研究效率和節奏必須掌握在你自己手裡;

3、不管是嘗試有風險的新穎專案,還是運用深度學習手段,科研多試錯才能出好東西。

有老師跟我們吐槽說,一天天地忙著維護環境,整得跟運維工程師一樣了,太耽誤事兒。想找學生幫忙吧,他們很多也不懂啊~

老師們的碩博後們也苦不堪言,本專業要學的東西已經多到爆炸,又要理論還要搞實驗,還要學大量計算機專業知識……

你這邊資料剛拿到手,別人文章都發了……救救孩子吧。

守著大把機器的,不見得有恃無恐;

得不到的,永遠在騷動,甚至還會掉頭髮。。。

我們為這一屆科研計算人準備的趕DDL紅寶書分為上下兩篇:

《學生篇》

一、你們具體怎麼幫我們搞科研的?展開說說

二、在雲上和在本地跑任務有什麼區別?

三、我自己也會上雲,為啥要選你們?

四、你們跟超算比怎麼樣,有區別嗎?

《老師篇》

五、我是一個老師,你們對我的科研工作/團隊管理有什麼幫助?

六、我是藥物/生物/化學專業方向的,你們能做到什麼程度?

七、我是積體電路/微電子專業方向的,你們能做到什麼程度?

八、我是力學/熱能/機械工程專業方向的,你們能做到什麼程度?

你想問的,這裡都有答案。

你想要的,我們能提供更多。

以下是學生篇

一、你們具體怎麼幫我們搞科研的?展開說說?

1、你們面向的是哪些科研方向的人?

四大類:

積體電路/微電子專業方向,包括物理電子學/電路與系統/微電子學與固體電子學等專業;

藥物/生物/化學專業方向,包括生物化學與分子生物學/化學工程/生物化學/生物工程/藥物化學/分析化學/高分子化學與物理等專業;

力學/熱能/機械工程專業方向,包括流體力學/工程力學/機械製造及其自動化/車輛工程/工程熱物理/熱能工程/動力機械及工程/流體機械及工程/航空宇航製造工程等專業;

以及高校或科研機構的AI訓練平臺、虛擬模擬實驗室等等。

2、你們是怎麼幫助我們這些搞科研的人的?

兩點結論:

1、讓大家更專心做科研,提升高校及科研機構師生的整體科研效率,讓IT能力跟上科研能力。

2、避免大家因為資源不夠而不得不選擇短平快的研究,不敢嘗試。

具體分成以下四個維度:

一整套針對應用優化的自動化科研環境,即開即用;

海量資源加智慧決策輔助,大幅提升計算效率同時降低成本;

有針對老師需求的獨特場景(這一點後續單獨展開);

讓IT能力跟上科研能力,視覺化操作,輕鬆上手。

3、你們是通過哪些手段大幅提升計算效率的?

應用雲端優化、即開即用的雲平臺、雲端海量資源、Auto-Scale、排程器……

具體可見以下實證:

Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢

LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬體配置

揭祕20000個VCS任務背後的“搬桌子”系列故事

155個GPU!多雲場景下的Amber自由能計算

怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?

國內最大規模OPC上雲,5000核並行,效率提升53倍

提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed模擬效率提升55倍?

從30天到17小時,如何讓HSPICE模擬效率提升42倍?

4、一整套科研環境指什麼?

包括了應用環境和底層的執行環境。

我們為使用者提供從登入桌面、開啟應用、配置、提交任務、自動上雲開機執行任務並自動關機、檢視結果進行除錯……使用者所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用滑鼠簡單點選即可完成。

5、具體降低了什麼工作量?

整套自動化環境避免了大量手動操作,也降低了出錯概率。

工具的最大價值,是把人從機械性的重複勞動中解放出來,騰出時間來思考更重要的事。

比如,一百個任務一個個手動寫?一百臺機器一個個登陸上去裝應用,配置環境?任務跑著跑著失敗了,手動一個個重來?

避免重複勞動,一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?

也不需要團隊每個人重複一遍同樣的學習過程,做個模板它不香嗎?

6、你們說的應用或者任務,指的是什麼?

藥物/生物/化學/積體電路/微電子/力學/熱能/機械工程/人工智慧專業相關的軟體/工具。

藥物/生物/化學方向的有Autodock Vina、NetMHC、Qvina、Amber、MaterialsStudio、GATK、VASP、Rosetta、Schrödinger、BCFtools、Gromacs、FastQC、DeltaVina、Gaussian等;

積體電路/微電子方向的有Innovus、Spectre、Genus、Dracula、Virtuoso、Ncsim、PowerSI、Xcelium、PT、DC、VCS、VC、FM、Verdi、OPC Proteus、Tmax2、HSPICE、Spyglass、Starrc、Calibre、Tessent、nmLVS、nmDRC、xACT、xL、xRC等;

力學/熱能/機械工程方向的有Abaqus、Autodesk、Bladed、CFX、COMSOL、Fluent、HyperWorks、LS-DYNA、Matlab、Mechanical、MSC Adams、MSC Nastran、StarCCM、SOLIDWORKS、VASP、WRF等;

人工智慧方向的有Pytorch、Mxnet、Tensorflow、Caffe2、Miniconda、Scikit Learn/OpenCV、Pylearn2、Keras等。

7、你們和這些軟體/工具,有什麼區別呢?

一句話概括,我們是EDA/CAE/CFD/生物/化學/AI計算雲平臺,通過我們可以在短時間內調集海量資源,為上述軟體/工具加速,從而搶在各種科研deadline之前跑完任務,拿到結果。

關於我們的其他優勢與技術能力,可以通過後面的問題了解。

8、你們哪裡來的計算資源?

目前我們從多家雲廠商調集海量多雲資源。

9、有時候為了搶幾臺機器都要跟實驗室的師兄弟姐妹鬥智鬥勇,你們的資源真有那麼多?

雲上資源非常多,我們曾經根據IDC報告推測國內雲廠商的伺服器總量超過116萬臺,2020年中國公有云服務市場的全球佔比為6.5%,可大致估算出全球公有云廠商的伺服器總量超過千萬臺。

重點是,這些機器都是可用資源。

10、支援AWS/華為雲/GCP/Azure/阿里雲/騰訊雲……嗎?

國內外主流雲廠商我們都支援。

11、你們跟雲廠商有什麼區別?

我們是從應用出發,為應用定義的雲平臺。

而云廠商主要在IaaS層,距離使用者的實際應用還有非常長的距離。

在雲的基礎架構和應用之間,需要藉助應用優化、多雲環境支援等方式來滿足使用者需求。

12、那我直接用雲廠商是不是就行了?

參考上一個答案。

直接用雲廠商需要做大量的IT除錯,而我們已經對接了眾多主流雲廠商的API,可以用統一的方式方法完成自動化部署,簡化使用者使用雲資源的方式,降低學習成本,幫助使用者高效地用好雲,將精力集中在科研任務上。

13、聽說還有個雲管平臺,跟你們有什麼不同?

我們更貼近應用,在雲管平臺之上。

具體可檢視《靈魂畫師,線上科普多雲平臺/CMP雲管平臺/中介軟體/虛擬化/容器是個啥

14、之前上過雲,發現有些型別的資源比較少(如部分型號的GPU),需要分別從幾個不同雲廠商調資源,你們支援嗎?

我們支援多雲。

多雲指使用來自多個雲廠商的多種服務,可以最大限度利用不同雲廠商的不同優勢,就像你說的從幾個不同雲廠商調資源。而在產品價格、地域選擇,多雲也更有優勢。

15、雲上的虛擬機器靠譜嗎?效能可以嗎?

放心,效能相當,並可以更好。

兩方面原因:

1、雲上的硬體更新快(詳見第54問);

2、雲上虛擬化效能逐步接近裸機。

16、各個雲之間的虛擬機器效能有差異嗎?我不會選怎麼辦?

有。我們可以為使用者提供專業建議。

17、雲上用的機型是超執行緒的還是物理核的?

大多數雲廠商支援開啟和關閉超執行緒。

18、我做的課題需要特定型別的計算資源,而且可能需要好幾種,雲上有GPU/大記憶體資源嗎?

有,我們和雲上的資源是保持同步的。

包括但不限於超大記憶體、超大硬碟、網路優化、GPU等資源,並且十分靈活,即開即用,隨關隨走。

我們對不同型別雲端資源有非常詳盡的研究分析,具體看《【2020新版】六家雲廠商價格比較:AWS/阿里雲/Azure/Google Cloud/華為雲/騰訊雲

19、License在雲上能正常用嗎?

License無論在雲上還是本地都能正常使用。

在這篇《EDA雲實證Vol.4:國內最大規模OPC上雲,5000核並行,效率提升53倍》中,我們將License Server分別部署在本地和雲端,計算結果完全一致,叢集執行均無中斷,GUI啟動均正常。

20、你們有自己的資源中心嗎?

公有云以及第三方IDC合作共建的資料中心。

21、使用機器需要排隊嗎?

正常使用雲上資源無需排隊。

如果是上萬核那種的,建議提前聯絡我們調配資源。

22、那啟動機器需要多久?

除了特殊機型,啟動單機的時間幾乎可以忽略不計。

如果是叢集,根據叢集規模大小需要若干分鐘的等待時間。

23、發paper、趕實驗工期、開組會……我們經常會特別著急臨時要跑一個任務,你們最快多久可以用上?

無需排隊,即開即用,參考前兩個問題。

24、半夜發現實驗結果有問題,第二天就要交了,你們的資源隨叫隨到嗎?

全程操作自服務,白天晚上沒區別。

25、使用過程中遇到問題,你們有人支援嗎?

我們大部分是自服務,如果你們遇到問題,我們也提供人工服務。

二、在雲上和在本地跑任務有什麼區別?

26、我現在常用的應用有好幾個,都是直接放到雲上就可以跑嗎?

是的,我們不僅支援常規應用,也支援使用者自定義安裝。

原先在本地上怎麼用,在雲上就怎麼用。

27、我在自己機器怎麼跑應用,在雲上就怎麼跑嗎?需要每次都配置嗎?

不需要每次都配置。

一次配置,無限使用。

28、從來沒上過雲,你們的雲平臺用起來麻煩嗎?

我們基本不會改變使用者的使用習慣,配置完成之後,使用者跟原先的使用習慣是一致的。

我們支援WebVNC遠端桌面接入和WebSSH遠端命令列接入功能。

詳見《CAE雲實證Vol.5:怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?

29、搞不定命令列,你們支援圖形介面登入嗎?

我們支援Linux VNC,也支援Windows RDP。

30、多機並行跑任務真的特別快嗎?

雲端的一大特點,就是你用相同的錢,可以讓1臺機器跑100小時,也可以讓100臺機器跑1小時,後者就是多機並行,能夠大大節省跑任務的時間。

效果參考問題3。

31、所有的應用都可以靠多機並行來提升效率嗎?

不是所有的應用都支援,我們可以基於經驗為使用者提供建議。

有些應用本身不支援多程序處理,有些應用雖然支援分散式但對分散式支援並不好,也就無法依靠多機並行來提升效率,但我們可以通過為其尋找更適合的機型、提升自動化程度等多個角度來提升效率。

不同機型對應用效率的提升有多大?看這篇《CAE雲實證Vol.5:怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?

32、使用你們的平臺需要自己安裝作業系統嗎?

不需要,可以選擇需要什麼作業系統。

33、我跑的應用沒有windows版本,你們支援linux系統嗎?

支援。

34、雲上可以支援叢集嗎?

可以。

我們支援LSF/SGE/Slurm叢集。

35、我習慣了自己寫程式碼,能不能直接通過程式碼來調叢集?

對於本身對應用工作流的理解和程式設計能力超強的使用者,我們提供更高階使用者模式,可以直接根據自己寫的指令碼,通過Web瀏覽器選擇新建叢集,然後按需動態地在雲端建立HPC叢集。

36、雲上的叢集也像本地一樣需要一臺臺部署嗎?

不需要。

傳統IT模式下,通常都是先構建一個固定規模的叢集,然後提交任務,當全部任務結束後再關閉叢集。

我們實現了雲上叢集的自動化部署,只需點選幾個按鈕,5-10分鐘即可開啟叢集,並在任務結束後自動關機。詳情可參考《EDA雲實證Vol.1:從30天到17小時,如何讓HSPICE模擬效率提升42倍?

37、訪問叢集會很麻煩嗎?

訪問叢集,既可以通過命令列,也可以通過WebVNC圖形介面方式直接訪問。

我們為所有使用者免費提供WebVNC功能,自動化建立到訪問叢集:

1、通過Web瀏覽器登入fastone平臺;

2、在Web介面新建叢集、配置資源;

3、在已建立的叢集點選WebVNC遠端桌面圖示(同時提供WebSSH遠端命令列功能);

4、跳轉到虛擬桌面,可在該桌面中操作應用。

38、雲端硬體該怎麼選?有什麼講究嗎?

需要根據具體的應用而定。

具體可參考下圖:

三、我自己也會上雲,為啥要選你們?

39、我之前用過雲,為啥還要選你們?

我們對接了幾乎所有的主流雲廠商,多雲的優勢參見第14問。

我們還能帶來許多其他方面的提升,具體可參考後面幾個問題。

40、我們實驗室裡才幾臺機器,天天維護頭就很大了,雲上這麼多機器還不得把自己搞禿了?

雲上的執行環境都是自動化配置的,不需要人工干預,使用者還可以通過平臺進行統一管理和監控,方便易操作。

舉個例子,我們的Auto-Scale功能可以自動監控使用者提交的任務數量和資源的需求,動態按需地開啟和關閉所需算力資源,在不夠的時候,還能根據不同的使用者策略,自動化排程本區域及其他區域的目標型別或相似型別例項資源。

所有操作都是自動化完成,無需使用者干預。

下圖就是開啟Auto-Scale功能後,使用者某專案一週之內所呼叫雲端計算資源的動態情況。

其中橙色曲線為OD例項的使用狀況,紅色曲線為SPOT的使用狀況。

可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。Auto-Scale功能可以根據任務運算情況動態開啟雲端資源,並在波峰過去後自動關閉,讓資源的使用隨著使用者的需求自動擴張及縮小,最大程度匹配任務需求。具體戳《EDA雲實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?

41、是不是可以認為你們就是個排程器?

排程器是我們平臺的一個重要元件。

42、你們這個排程器是怎麼個智慧法?

我們是基於使用者策略的雙層智慧排程。

上層排程程式支援靈活的使用者策略:

-基於位置

-基於效能

-基於成本

-基於團隊/組織目標……

下層排程程式滿足應用要求:

-基於Slurm/LSF/SGE/PBS的工作任務

-基於容器的K8S工作任務……

智慧排程使用者策略詳情看這個《生信雲實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子

43、資料怎麼做到雲上、線下同步?

我們有專門的資料傳輸工具DM(Data Manager),讓使用者無需在多套認證系統之間切換,使用統一的身份認證即可傳輸資料,並自動關聯雲端叢集進行計算,不改變其原有的使用習慣。

44、任務跑得怎麼樣可以在平臺上監控嗎?

提交任務後,可以在監控介面中檢視任務和叢集執行情況。

我們也可以在介面上檢視任務執行的日誌。

我們還支援實時檢視任務本身的狀態,比如Fluent的殘差曲線,監控計算的收斂情況。

45、老師想搞深度學習,需要很多GPU,但有時候雲上連幾塊GPU都很難搶到,怎麼辦?

一般來說單家雲廠商的GPU可用資源是比較有限的,我們曾經在一個任務中成功地呼叫了155塊NVIDIA Tesla V100,單個公有云廠商單區域資源未必能夠隨時滿足這種需求。這裡面就還涉及到跨雲排程。

具體可以看《生信雲實證Vol.6:155個GPU!多雲場景下的Amber自由能計算

46、我試過自己搶雲廠商的SPOT,雖然確實很便宜,但非常難用,隨時會斷掉,你們對SPOT支援到什麼程度?

由於SPOT一定會被搶走,我們的建議是用SPOT去算那些單個任務小總數卻很多的東西。

比如生物/化學計算裡的分子對接。常規分子對接任務幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態。而且我們平臺具備自動重試功能,一個任務被中斷可以自動重新提交,任務之間互相不影響,重新提交單個任務影響很小

四、你們跟超算比怎麼樣,有區別嗎?

47、平時用超算經常排隊用不到,你們說自己即開即用,難道你們的機器規模比超算還大?

確實比超算大,而且不在一個量級。

我們曾經盤點了中國已落成的主要超算中心的總節點數量,總數為54588個,其中未包括一些正在建設中的超算中心,以及小型超算中心。

即便加上這些數量,中國超算中心的總節點數量級也未過十萬。

而根據IDC公佈的中國公有云市場份額佔比,阿里雲以46.5萬臺伺服器搶下了超過40%的市場份額,我們據此反推出國內雲廠商的伺服器總量超過116萬臺,超算中心與其完全不在一個數量級,可以看下圖感受一下差距。

48、這麼大規模的雲資源,我們都能用嗎?

短時間內可獲取海量資源正是雲資源特有的優勢。

我們曾用AutoDock Vina上雲,呼叫了十萬核CPU資源做分子對接,詳見《生信雲實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子

49、GPU也一樣能用嗎?

可以,我們曾經在一個任務中呼叫了155塊NVIDIA Tesla V100做Amber自由能計算,詳見《生信雲實證Vol.6:155個GPU!多雲場景下的Amber自由能計算

50、我們常用的超算中心機器配置比較固定,選擇比較少,雲上可以選嗎?

雲端計算中心能夠給使用者提供更為豐富的計算資源選擇。
如某公有云廠商的企業級雲伺服器分為通用型、計算型、記憶體型、大資料型、GPU型、本地SSD型、高主頻型、FPGA型、彈性裸金屬九大類,其中每一種型別還可以選擇與不同儲存和網路的組合,可根據需求自由選擇。

51、你們支援的應用跟超算差不多嗎?

我們支援所有主流科研應用,以及使用者自編譯的科研工具。

行業方向方向,除了生物/化學計算和CAE/CFD方向,還有EDA。

52、不太懂IT,看到Linux就束手無策,我還能用你們這個雲平臺嗎?

可以的,我們支援Windows系統。

另外,由於分散式計算場景大部分基於Linux系統,我們可為使用者提供圖形化介面,基本不改變操作習慣,通過簡單的滑鼠操作就可以跑任務,上手非常快。

53、怎麼申請你們的資源?手續麻煩嗎?週期要多久?

我們的雲平臺即開即用,3分鐘即可使用,無需繁瑣的申請流程。

而幾乎每家超算中心都有一套申請、稽核、使用流程,平均需要5.8個步驟。以國家超級計算天津中心為例,其步驟就多達8步。

54、我們學校的超算中心總是在用好多年前的舊機器,非常慢,實驗室的情況稍微好一點,你們雲上有新硬體嗎?

你在雲上隨時可以用到最新的硬體。

舉個例子,2019年4月3日上午,Intel在太平洋兩岸近乎同步釋出了代號Cascade Lake的第二代至強可擴充套件處理器。當天中午12點,國內某雲廠商便宣佈其基於Cascade Lake的全新一代通用計算增強型雲伺服器C6正式轉為商用。

超算就要慢得多了,超算中心從規劃設計到正式上線需要經歷若干年的時間,能夠在上線時配置當年上市的硬體已經是其規劃能力的最佳體現,其最新硬體更新週期至少要以年為單位。

55、超算資源有時候跑著跑著就被強制回收了,你們也會有這種情況嗎?

我們提供的是獨佔資源,不會被搶走。

56、我們之前用超算都是共享資源,不能改,也不能自己裝一些元件,你們可以嗎?

我們提供的是獨佔資源,使用者擁有管理員許可權,安裝什麼、如何使用均由使用者自己做主。

57、用超算總感覺限制比較多,你們有什麼限制嗎?

我們的平臺沒有什麼限制,連網即用。不但如此,我們提供的是一整套科研環境,詳見第4問。

58、你們和超算還有什麼區別?

具體可以看這篇《國內超算髮展近40年,終於遇到了一個像樣的對手

本期的《這一屆科研計算人趕DDL紅寶書:學生篇》就到這裡了。

在下一期《老師篇》中,我們將從老師視角和專業應用的角度出發,來看看高校計算雲平臺對科研工作所帶來的幫助。

敬請期待哦~

- END -

我們有個科研計算雲平臺

整合多種科研應用,大量任務多節點並行

應對短時間爆發性需求,連網即用

跑任務快,原來幾個月甚至幾年,現在只需幾小時

5分鐘快速上手,拖拉點選視覺化介面,無需程式碼

支援高階使用者直接在雲端建立叢集


掃碼免費試用,送300元體驗金,入股不虧~


更多電子書歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

Auto-Scale這支仙女棒如何大幅提升Virtuoso模擬效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢

LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬體配置

揭祕20000個VCS任務背後的“搬桌子”系列故事155個GPU!多雲場景下的Amber自由能計算

怎麼把需要45天的突發性Fluent模擬計算縮短到4天之內?

國內最大規模OPC上雲,5000核並行,效率提升53倍

提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed模擬效率提升55倍?

從30天到17小時,如何讓HSPICE模擬效率提升42倍?

關於為應用定義的雲平臺:

缺人!缺錢!趕時間!初創IC設計公司如何“絕地求生”?

楊洋組織的“太空營救”中, 那2小時到底發生了什麼?

速石科技獲元禾璞華領投數千萬美元B輪融資

一次搞懂速石科技三大產品:FCC、FCC-E、FCP

AI太笨了……暫時

速石科技成三星Foundry國內首家SAFE™雲合作伙伴

Ansys最新CAE調研報告找到阻礙模擬效率提升的“元凶”

【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書

EDA雲平臺49問國內超算髮展近40年,終於遇到了一個像樣的對手

幫助CXO解惑上雲成本的迷思,看這篇就夠了

花費4小時5500美元,速石科技躋身全球超算TOP500


速石科技(ID:Fastone_tech)

我們致力於構建為應用定義的雲,讓任何應用程式,始終以自動化、更優化和可擴充套件的方式,在任何基礎架構上執行。希望和你共同建立持續迭代的多雲世界觀。

說出你的應用,我們就有故事~~

(你要是嘮這個我就不困了。)