1. 程式人生 > >2015 年,我和華大基因立下一個小目標……

2015 年,我和華大基因立下一個小目標……

導讀:2015 年,阿里雲和華大基因立下一個目標:到 2020 年,要在 24 小時完成個人全基因組測序。這在當時是一個幾乎被認為不可能的挑戰。  而在 2020 年剛開始的第 17 天,我們就實現了這個目標!並且把個人全基因組測序分析做到只需要 15 分鐘,不到一頓飯的功夫。

雲端實現大規模彈性排程計算

圖 1 - WGS 分析過程示意圖

基因計算所面臨的挑戰不同於常規計算,大資料生信分析平臺需要具備 PB 級的資料處理能力:儲存與壓縮、清理及管理、低成本儲存的能力;快速、安全的雲端分發共享;基因資料的安全隱私保護、大規模資料探勘;按需排程和彈性擴容等。

此次方案由華大 DNBSEQ 自主測序儀、BGI Online 混合雲架構、阿里雲容器服務 ACK/AGS 基因服務以及賽樂基因 GPU 加速演算法的深度融合而成。其中,華大基因聯合阿里雲的整體技術架構為雲原生容器混合雲,實現雲上雲下資源一體,跨地域叢集統一管理。憑藉雲端的自動伸縮特性,實現大規模彈性排程計算。

在使用上,該方案使用者無需關心基因資料處理過程中的計算資源、處理邏輯、資料快取等細節,只需將下機資料 (FASTQ檔案) 上傳至 OSS,以及授權 Bucket 給 AGS 服務,即可高效、快速完成整個資料分析流程,並將結果資料上傳到使用者期望的儲存空間。

這套端到端解決方案,無縫銜接測序平臺和基因雲平臺,全面支援包括 DNBSEQ 系列測序儀在內的多種測序平臺,可按需定製分析流程,交付靈活性極高。

速度更快,精度更高,成本更低

相比同類產品,它在計算速度、精準度、成本、易用性、與上游測序儀的整合度上具有極大優勢,在 2020 年,新的 WGS 交付方案將會助力基因科研與臨床檢測再上一個新臺階。

經過實際測試,整套方案在 15 分鐘內完成了 8 組 30X WGS 樣本二級分析處理。在保證精度的前提下,實現 15 分鐘對 7200 億鹼基拼裝、排序、去重、變異檢測,完成基因檢測全流程120倍加速。且經過 NA12878 測試資料集與金標準 VCF 比較,二級分析的精度高於或等於 BWA-0.7.17/GATK 4.1.3 的資料產出,SNP 精度到達 99.80%!

圖 2 - 實測 30X WGS N12878 資料加速效果

圖 3 - 30X WGS 軟體加速一致性
同時,阿里雲 ACK/AGS 提供雲上 PaaS 加速能力,以混合雲方式協助華大基因完成自主測序儀大批量下機資料分析的近實時交付,可有效降低分析計算成本,縮短該環節交付週期。

加速解碼生命程序

此前,線下進行單個樣本的 WGS 分析通常需要 70+ 小時;2016 年底,BGI Online(國際版)實現 17 小時完成 100 個 WGS 分析;2017 年底,時間降至 120 分鐘;到如今攜手阿里雲,創下 15 分鐘完成 1 個 WGS 的新紀錄,BGI Online 再次重新整理了全基因組分析的速度極限。

隨著精準醫學人群佇列專案的陸續啟動,我國自主可控的基因測序與分析平臺顯得愈發重要。BGI Online 將在未來繼續完善平臺功能,為使用者提供完整、全面、友好的功能體驗,使生物資訊領域的研究更簡單高效。

解碼未知,丈量生命。科技的每一小步,都會成為人類前行的一大步。華大基因及 BGI Online 將繼續攜手合作夥伴,共同為基因事業貢獻力量。

注:人類全基因組測序(Whole Genome Sequencing,簡稱WGS)是利用高通量測序技術對人類不同個體或群體進行全基因組測序,並進行生物資訊分析的方法。癌症和遺傳疾病的深度解析往往需要對大量樣本進行 WGS 測序與分析,而且對 WGS 資料的挖掘還能發現非常多極具價值的遺傳多樣性資訊。一個人類全基因組有 30 億鹼基,一個 30X 的 WGS 測序資料量大約在 100G。

雲原生實踐峰會即將開幕

“阿里巴巴雲原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的技術圈。”