1. 程式人生 > 實用技巧 >生信雲實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子

生信雲實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子

在這裡插入圖片描述
AutoDock Vina是用於分子對接和虛擬篩選的開源程式,由Scripps研究所分子圖形實驗室的Oleg Trott博士設計和實現,是目前使用最為廣泛的分子對接軟體之一。

分子對接技術,作為計算機輔助藥物設計(Computer Aided Drug Design,CADD)的重要方法,已廣泛應用於藥物發現階段的早期虛擬篩選、藥物分子設計、先導化合物優化、藥物潛在作用靶點發現、藥物-靶點相互作用機制、為重要的藥物代謝酶尋找特異性配體等。

目前,限於算力,或者高效靈活地呼叫大規模計算叢集的能力,當前的虛擬篩選通常僅取樣百萬到千萬個分子,而事實上目前可用於藥物發現的有機分子已經超過10的60次方。

在這裡插入圖片描述
在《15小時虛擬篩選10億分子,Nature+HMS驗證雲端新藥研發未來》這篇文章裡,哈佛大學醫學院的研究人員論證了:分子化合物的質量會隨著虛擬篩選規模的擴大而提升。
如何在本地資源有限的情況下,提高虛擬篩選規模和質量,把漫長的藥物研發週期縮短一點?
我們用實證給你一個答案。

與前兩次實證不同,本次生信實證有兩大特點:

  1. 任務數量多,雲上同一地區某種型別機型可能不足,因此會涉及到多區域資源排程;
  2. 可根據使用者偏好匹配合適的資源排程策略,滿足使用者不同需求。

實證背景資訊

某大型藥企在本地建設有機房,計算資源總計為104核。使用AutoDock Vina進行小分子對接:當設定exhaustiveness=8時,篩選56643個原始分子共需90小時;當設定exhaustiveness=1時,耗時需18小時。

在這裡插入圖片描述

(exhaustiveness引數:用來控制對接的細緻程度,影響計算時間)

當篩選範圍擴大到整個VS資料庫(2800萬個分子)時,不同引數條件下本地資源所需的運算時間在約2.6-5年不等。
在這裡插入圖片描述

研發負責人認為這麼長的時間週期是無法接受的,其本地現有IT架構和資源完全無法滿足研發需求。

實證目標

1、AutoDock Vina任務能否在雲端有效執行?
2、fastone平臺能否大幅度縮短任務執行時間?
3、fastone平臺能否有效控制任務執行成本?
4、針對AutoDockVina任務小,數量大的特點,fastone平臺是否有針對性策略?

實證引數

平臺:
fastone企業版產品

應用:
AutoDock Vina

適用場景:
分子對接,研究配體(藥物分子)與其受體(已知的靶蛋白或活性位點)之間的詳細相互作用,預測其結合模式及親合力,還可以用來發現並優化藥物先導物分子,進而實現基於結構的藥物設計

雲端硬體配置:
AutoDock Vina在執行時需要對接海量分子,對計算效能要求較高,因此平臺為使用者推薦選擇了匹配其應用特點的計算優化型例項機型。

技術架構圖:
在這裡插入圖片描述

以下是兩個實證場景。
實證場景一:我們通過10000分子分別進行了AutoDock Vina的雲端線性擴充套件性驗證及成本驗證;
實證場景二:基於不同使用者策略,我們幫使用者進行了2800萬量級的大規模分子對接。

1、時間優先策略以速度為第一優先順序:資源選擇以OD按需例項為主,在滿足使用者時間要求的前提下儘可能通過搶佔SPOT例項來優化成本。
2、成本優先策略以成本為第一優先順序:資源選擇以SPOT例項為主,並在滿足使用者成本要求的前提下使用OD按需例項來優化時間效率。

SPOT:可被搶佔例項,又稱競價例項。價格最低可達到按需例項價格的10%,相當於秒殺,手快有手慢無,價格可高可低波動大,隨時可能被搶佔中斷,需要有一定的技術實力才能使用。
OD:On-Demand,按需例項。針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高,通常為SPOT例項的3-10倍。

實證場景一:10000分子 AutoDock Vina雲端線性擴充套件性及成本驗證

結論一:在雲端排程不同核數的計算資源對接10000分子,驗證AutoDock Vina在雲上具有線性擴充套件性,即當處理器數量增加一倍,運算時間也會縮短一半。
在這裡插入圖片描述

實證過程:
1、雲端排程36核計算資源對接10000分子,採用時間優先策略需耗時527分鐘;
2、雲端排程80核計算資源對接10000分子,採用時間優先策略需耗時314分鐘;
3、雲端排程144核計算資源對接10000分子,採用時間優先策略需耗時215分鐘;
4、雲端排程288核計算資源對接10000分子,採用時間優先策略需耗時98分鐘;
5、雲端排程540核計算資源對接10000分子,採用時間優先策略需耗時52分鐘;
6、雲端排程1080核計算資源對接10000分子,採用時間優先策略需耗時20分鐘。

結論二:在雲端排程不同核數的計算資源對接10000分子,當用戶選擇成本優先策略時,fastone平臺以SPOT例項為主要資源選擇,確保成本為第一優先順序。
比時間優先策略,成本降幅最多可達67%-90%。
在這裡插入圖片描述

實證過程:
1、雲端排程36核計算資源對接10000分子,採用成本優先策略搶佔SPOT例項,耗費82元;
2、雲端排程80核計算資源對接10000分子,採用成本優先策略搶佔SPOT例項,耗費84元;
3、雲端排程144核計算資源對接10000分子,採用成本優先策略搶佔SPOT例項,耗費79元;
4、雲端排程288核計算資源對接10000分子,採用成本優先策略搶佔SPOT例項,耗費64元;
5、雲端排程540核計算資源對接10000分子,採用成本優先策略搶佔SPOT例項,耗費58元;
6、雲端排程1080核計算資源對接10000分子,採用成本優先策略搶SPOT例項,耗費68元。

實證場景二:2800萬分子 大規模業務驗證:基於不同使用者策略

fastone基於使用者2800萬分子對接需求,提供時間優先和成本優先兩種策略供使用者選擇。

1、使用者以時間為第一優先順序

結論:
1、通過fastone平臺採用時間優先策略呼叫10萬核計算優化型例項對接2800萬個分子,耗時約15.23小時,運算效率提高2920倍;
2、fastone平臺根據使用者計算需求,自動化構建並排程雲上10萬核大規模算力叢集,完成計算任務;
3、時間優先策略下,當任務數量達到一定規模時,雲上同一地區某種型別機型可能不足,fastone平臺可跨區、跨型別自動為使用者排程雲資源,以最快速度完成計算任務;
4、fastone平臺自動幫使用者確定中斷可能性最低的SPOT池,保障任務順利高效完成,本次實證任務的中斷率為0.95%(通常<5%)。

實證過程:
1、設定exhaustiveness=8,本地104核計算資源對接約2800萬個分子,經估算需耗時約1853天;
2、設定exhaustiveness=8,雲端排程10萬核計算資源對接約2800萬個分子,採用時間優先策略需耗時約15.23小時(含配置,安裝,排程等時間)。
在這裡插入圖片描述

計算資源越多,運算時間越短。

在滿足使用者時間要求的前提下,可通過儘可能搶佔SPOT例項來幫助使用者優化成本。
當所需的計算資源達到十萬核這個數量級以後,單個區域內我們的目標型別資源可能會瞬間告罄,造成任務排隊,從而大大拖慢運算時間。
我們需要通過fastone平臺的Auto-Scale功能自動排程本區域及其他區域的目標型別或相似型別SPOT例項資源,以最快速地完成任務。
在這裡插入圖片描述

簡單說,就是優先搶低價的SPOT例項,搶完同類型的再搶其他型別的,搶完同區域的再搶其他區域的。
這只是Auto-Scale功能的一部分。
fastone的Auto-Scale功能可以自動監控使用者提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。可以讓使用者根據自身需求,設定排程叢集規模上下限,且所有操作都是自動化完成,無需使用者干預。

2、使用者以成本為第一優先順序

使用AutoDock Vina進行分子對接的一大特徵是任務數量龐大而單個任務計算時間短,單個分子對接的時間通常在幾分鐘以內(與引數設定有關)。
這一特徵天然匹配雲端的SPOT例項。

雲端SPOT例項有四大特點:
1、 便宜是真便宜。
2、 不是人人都能用好。
3、 不是你想要啥就有,不是你想用的時候就能用。
4、 或遲或早,最終一定會被搶走。

在這裡插入圖片描述

OD按需例項價格通常為SPOT例項的3-10倍。

當便宜且隨時可能被搶佔中斷的SPOT例項遇到迷你卻海量的分子對接任務,簡直就是天造地設的一對。
1、常規分子對接任務幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態;
2、fastone平臺具備自動重試功能,一個任務被中斷可以自動重新提交,任務之間互相不影響,重新提交單個任務影響很小。

fastone平臺會按以下順序依次進行自動化排程:
1、同一區域目標型別的SPOT例項;
2、同一區域其他型別的SPOT例項;
3、其他區域目標型別的SPOT例項;
4、其他區域其他型別的SPOT例項;
5、同一區域目標型別的OD例項;
6、同一區域其他型別的OD例項;
7、其他區域目標型別的OD例項;
8、其他區域其他型別的OD例項。
在這裡插入圖片描述

實證小結

最後我們回顧一下實證目標:
1、AutoDock Vina任務能在雲端有效執行;
2、fastone平臺能夠大幅度縮短任務執行時間;
3、fastone平臺能夠有效控制任務執行成本;
4、fastone平臺的Auto-Scale功能可完美匹配AutoDock Vina任務小、數量大的特點;
5、fastone平臺能根據使用者不同需求,為使用者提供不同的自動化排程策略。

本次生信行業Cloud HPC實證系列Vol.3就到這裡。
在下一期的實證中,我們將為大家帶來Amber上雲實證,這次涉及到了雲端GPU資源的使用。
未來我們還會帶給大家更多領域的用雲“真香”實證,請保持關注哦!

  • END -

速石科技(ID:Fastone_tech)
算力,是一種能力,也是一種資源。
我們為有高算力需求使用者提供一站式算力運營解決方案,不侷限於HPC,AI,大資料,網際網路服務等。希望和你共同建立起不斷迭代更新的多雲世界觀。
(你要是嘮這個我就不困了。)