基因大資料分析的雲端計算實踐
基因測序有著廣泛的行業應用,在預防出生缺陷、檢測遺傳性疾病與腫瘤用藥指導等領域,能提供極大幫助。近年來基因組學研究進展飛速,華大基因也憑藉強大的研發實力,成為全球最大的基因組學研究中心,其研究成果在全球都有廣泛的影響力。
在基因組學行業迅速發展的當下,基因測序成本已實現快速下降,從過去的天價一躍進入大眾也能輕鬆負擔的“千元”時代。同時,多項殺手級臨床應用均引入基因測序,拉動覆蓋使用者數量成倍攀升。隨著高通量測序儀的發展,需要儲存計算的基因資料量,呈指數級增長。基因測序已進入爆發式的階段,使用者和應用量級的爆發,帶來了資料計算的爆發。
隨著生命科學領域資料爆炸式的增長,如何及時獲取、快速分析、安全儲存這些龐大的資料是研究者們急需解決的問題,包括華大基因都面臨的挑戰。2017年11月22日的廣州雲棲大會服務專場上,華大基因 BGI Online 產品總監黃澤輝,分享了華大基因在這個問題上面臨的挑戰與解決方案。
24小時,完成千人基因資料分析?
人一生的基因資料的管理和儲存資料量相當龐大,而華大基因提供的基因快速檢索和查詢,涉及到基因資料在資料分析中的降維過程。過程中資料密集型和CPU密集型的計算分析任務,計算能力要求高,結果檔案種類繁多,資料非結構化,不利於資料探勘和視覺化。目前使用了多地測序中心,使用者分佈廣泛,資料共享和傳輸困難。
傳統方案是基於大型計算裝置和儲存裝置購買來解決,出於成本和伺服器跟進速度的考量,華大基因 BGI Online 則搬到了雲上,並且在分析層面上給使用者定製化和個性化體驗。不僅降低了資料分析門檻,使用者也可直接在線上簡單操作即可完成啟動分析。
全面擁抱雲端計算,解決資料儲存、傳輸、分析、安全問題
BGI Online作為大規模生物資訊的分析平臺,堪稱基因行業的“應用市場”。依託部署在阿里雲端計算平臺的服務,BGI Online更輕鬆地擁有了處理大規模基因組資料分析的能力。
基於BGI Online的基因資料分析需求,華大基因在阿里雲平臺上,設計了計算資源彈性伸縮、多級儲存、海量儲存計算與資料安全的雲平臺架構。
通過專線接入,來傳輸測序中心幾十TB/day的資料;通過平臺多資料中心部署,計算能力放至資料所在地,為美國、歐洲與中國等提供測序;混合使用阿里雲的多種計算服務,資料通過OSS來互通。通過ECS在線上高靈活度地輸出基因測序、利用批量計算測序可大規模降低成本、MaxCompute實現MapReduce小時級測序。
合作過程中,阿里云為華大基因提供了企業級支援服務和專家服務,保障華大基因的雲上業務搭建與運轉。包括指導產品選型與使用技術、提供APM報告及相應效能的分析優化;排查整改系統安全隱患、對生產高峰的任務支援進行專門保障。從曾經三四天才能輸出一人基因分析,到如今實現了22小時內達成千人基因組分析的人類夢想。
生命的價值值得我們為之努力
基因組學資料是“天然”的大資料,計算分析的價值會超過測序本身,與雲端計算和大資料技術的結合是行業的需要。華大基因股份有限公司CEO尹燁說過,“基因測序為生物技術帶來的改變,為生命創造的價值,值得我們為之努力。”
多年來,華大基因積累了來自制藥、科研、臨床和個人等多樣且豐富的客戶,對市場需求有了更深的理解。未來,華大基因將利用積累的技術與經驗,繼續研發不同層次結構組成,專注於生物資訊分析流程開發和基因資料的挖掘的平臺。未來應用應該可跨平臺共享,由雲端計算服務持續提供底層資料儲存、壓縮的優化。 如此,勢必能為中國在未來數十年在生命科學、生物產業提供持續增長的強勁動力。