1. 程式人生 > 其它 >基因組大資料計算:CPU和GPU加速方案深度評測

基因組大資料計算:CPU和GPU加速方案深度評測

隨著NGS測序通量的大幅提高,搭配高效NGS二級分析技術的精準解決方案快速融進基因組學的各個應用領域:遺傳進化、臨床診斷、分子育種、醫藥開發等。以下我們通過對基於CPU和GPU不同硬體平臺的NGS二級分析方案進行詳細評測,以期為基因組學研究領域的使用者提供參考。

Sentieon軟體是面向CPU平臺開發的,在不需要專用的程式語言,不依賴任何專用硬體的情況下進行快速基因變異檢測分析,大幅降低了軟體的配置、部署和維護成本。同時,Sentieon針對第三代和第四代Intel Xeon Scalable處理器(以前代號為Sapphire Rapids)進行了改進及優化,更適用於在多核系統上擴充套件,可以在Xeon平臺上實現更快速地處理急診科及ICU的緊急樣本,也可在實驗室環境下以更高的通量處理大量樣本。

 本次評測將比較面向CPU平臺的Sentieon軟體及面向GPU平臺的NVIDIA Clara Parabricks的運算效能和分析準確性,以評估兩者在基因組二級分析中的價效比及成本效益。

為什麼沒選擇GATK

GATK是變異檢測流程的行業金標準,但它是用Java寫的,所以不是效能的金標準。伊利諾伊大學和梅奧診所發表的文章已經證實,Sentieon 的運算效能明顯優於 GATK,而且沒有損失精度(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6710408)。

同時基於最新來自AWS的官方評測,NVIDIA Clara Parabricks相對GATK也有明顯的效能優勢(

https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/)

綜上原因,我們沒有將GATK納入評測範圍。我們的目標是比較Sentieon軟體(用C++編寫,並針對CPU優化)與 Parabricks(用CUDA編寫並針對 NVIDIA GPU 優化)。

測試專案

為了儘可能精確地比較Sentieon與Parabricks流程每個計算階段的執行效能,我們按照兩個流程中匹配的計算步驟(如下表),將Parabricks中haplotypecaller、預處理和fq2bam各個階段對應Sentieon流程的步驟標記出來,並統計兩個流程對應計算階段的運算時間。測試資料為30X HG001 WGS標準資料.

效能評測

以下我們將展示Sentieon和Parabricks在不同硬體配置環境下的效能表現。其中Intel Xeon 可擴充套件處理器提供了具有競爭力的效能,第四代 Intel Xeon 可擴充套件處理器(以前的代號為 Sapphire Rapids)提供最佳的整體效能。除了最重要的效能評測,我們詳細對比了每個基因組的計算成本和功耗表現。

3rd Gen硬體環境為2 Intel 2.4GHz Intel Xeon Platinum 8368 CPU(152核心, 超執行緒開啟),256GB DDR4-3200 記憶體,1TB Intel 660p 和 2TB DC P4510 SSD。*

  • 4th Gen 硬體環境為2 4th Gen Intel Xeon Scalable CPU(原代號為 Sapphire Rapids,>40 核,超執行緒開啟),Intel Pre-production BIOS,256GB DDR記憶體(16(1DPC)/16 GB/4800 MT/s),1TB Intel D3-S4610 SSD。
  • 3rd Gen和4th Gen的作業系統均為. Ubuntu Linux 20.04。

通過下表中各計算例項上Sentieon vs. Parabricks的效能對比,可以看出,3rd Intel Xeon平臺可在40分鐘左右完成30x WGS的資料分析,與GPU平臺速度相當。而4th Intel Xeon平臺則跑出了26.8分鐘的最佳成績

 其中NVIDIA Clara Parabricks評測資料來源於AWS官方部落格:https://aws.amazon.com/cn/blogs/hpc/benchmarking-the-nvidia-clara-parabricks-germline-pipeline-on-aws/

根據不同配置的硬體定價統計表可以發現,與 NVIDIA A100 Tensor Core 處理器(4.59 美元)相比,Intel Xeon Scalable CPU(1.54 美元)的每個基因組分析所需成本要低得多。如果第4代英特爾至強可擴充套件處理器具有類似的AWS EC2定價,則每個基因組的計算成本將降至不到 1 美元(2.1635 美元/小時 * 26.8 分鐘 = 0.97 美元)。在此補充一下,這次基準測試中使用的4th Gen Xeon Scalable CPU是預釋出硬體,因此最終產品的效能可能會有所提高。

在功耗方面,c6i.metal 例項中的兩顆Intel Xeon Platinum 8352M 處理器的功率是370W,而 p4d.24xlarge 例項中的八個 NVIDIA A100 Tensor Core 的功率則高達3,200W。Parabricks 要達到最佳效能,相較於Intel純CPU硬體環境需要8.6倍的功率和 3.0 倍的成本,但分析效率相較於Intel 3rd Gen Xeon Platinum 8352M CPU來說,僅有1.5 倍的效能提升。

精度評測

在分析精度方面,Parabricks官方部落格此前報道了其變異檢測結果的準確性與GATK相當(F1 scores)。而Sentieon不但提供與GATK一致結果(一致性達99%以上),更是PrecisionFDA Truth Challenge的連續冠軍。在第二屆PrecisionFDA Truth Challenge比賽中更是贏得了4個分項賽冠軍。

 關於對Sentieon軟體的執行效率和準確度的行業認可,其遍佈全球的使用者和快速增長的資料處理量提供了廣泛的例證。

評測結論

Sentieon軟體是通過改進演算法模型實現效能加速(純CPU環境,支援X86/ARM),不依賴於昂貴高功耗的專用硬體配置(GPU/FPGA),不依賴專有程式語言;同時Sentieon軟體針對幾乎所有的短讀長和長讀測序平臺進行了優化,是FDA多次公開挑戰賽的連續贏家。本次評測展現了Sentieon軟體在Intel Xeon平臺上的卓越效能,是基因組二級分析的最佳解決方案。

軟體連結

https://www.insvast.com/sentieon