突破資料分析瓶頸,尋因生物單細胞測序資料分析邁入雲時代
世上沒有兩片完全相同的樹葉,人體內的每兩個細胞也是截然不同的。長久以來,基因檢測技術主要是在組織層面對樣本進行解析,獲得的是成千上萬個細胞的平均值,但這會讓很多資訊是被隱匿,對疾病的認知和理解存在很大的障礙。
單細胞檢測技術將基因檢測的水平提升到了單細胞的精度,可以揭示每一個細胞的細微變化,對疾病的認知、診療方式的改變、藥物研發的方式提供了更好的方法。而其中,高通量測序(NGS)技術因其高度準確性和特異性成為了單細胞測序的理想工具。
尋因生物,是一家自主研發單細胞技術的精準醫療生物醫藥企業,致力於通過國產高通量單細胞全鏈條產品及服務,將單細胞技術普適化,應用於臨床及藥物研發,推動相關疾病研究。
通常,單細胞測序工作流程包含單細胞樣本製備、單細胞分離和文庫製備、測序和初級分析、資料視覺化和解讀四個步驟。作為國內獨家擁有微孔晶片與油包水雙技術平臺的尋因生物來說,單細胞樣本製備、單細胞分離和文庫製備是其強項。同時,尋因生物具有完備的資料分析和解讀能力,底層分析計算效率的提升十分必要。
據悉,在單細胞測序資料分析環節,業界普遍存在資料量大、分析時間長的挑戰。僅一個單細胞測序檔案的大小可達100GB以上,而隨著一個單細胞專案包含的樣本量越來越多,可能產生數百GB甚至TB級的細胞資料;同時,單細胞資料的分析複雜,需要反覆做資料讀取和引數調整,所以處理海量細胞樣本的分析任務通常需要數小時甚至數天才能完成。因此,超大資料量和分析複雜性所導致的任務併發度低和資料載入速率慢是未來單細胞分析效能的主要瓶頸之一
在單細胞測序資料分析過程中,每個細胞的表達量資料高達數十萬條讀取 (reads),產生的資料更是要大得多,這種海量級的資料分析對雲主機的記憶體容量提出了更高的要求。而通用的雲主機的記憶體容量與CPU配比有限,單細胞的分析任務常會出現因記憶體不足而導致執行失敗;而選用傳統的大記憶體雲主機,不僅要付出更加高昂的成本,而且會造成CPU算力的浪費。所以,記憶體容量的限制使尋因生物不得不將樣本引數調低來滿足執行任務。此外,通用的雲主機僅能支援執行一個單細胞分析任務,在測序任務多的情況下,尋因生物只能將多工排隊執行,非常耗時;同時,在測序資料分析過程中,每次臨時資料在磁碟上的匯出和載入(IO)過程長達1000秒,隨著資料集的持續增長,這種處理速度阻礙了預期的研究發現時間。
當前,尋因生物將單細胞測序分析任務部署在了第三代英特爾® 至強® 可擴充套件處理器 (代號: Ice Lake) 和 英特爾® 傲騰™ 持久記憶體的阿里雲i4p持久記憶體型例項上,並在例項中使用了MemVerge公司開發的 Memory Machine大記憶體軟體,不但完全消除磁碟讀寫帶來的IO瓶頸,幫助尋因生物成功地運行了多細胞數、大樣本的測序資料分析任務,並能通過Memory Machine的ZeroIO記憶體快照功能使資料匯出和載入從原來的1000秒降至2.5秒,將資料讀取的效率提升了兩個數量級。
阿里雲i4p持久記憶體例項是基於英特爾® 傲騰™ 持久記憶體推出的第二代持久記憶體例項,傲騰® 持久記憶體讓高性價比的大容量記憶體與對資料永續性的支援巧妙地結合在一起,將更多資料儲存在更靠近CPU的地方,加速了大記憶體計算, 可以說重新定義了傳統的兩級儲存架構。
除基本vCPU和記憶體外,阿里雲i4p例項還配置了持久記憶體資源,極大地擴充套件了主機的記憶體容量,讓記憶體中可以存放更多資料用於測序資料分析,同時併發執行更多的測序任務,相對於傳統普通大記憶體例項,i4p持久記憶體例項可以幫助使用者打破“記憶體牆”藩籬,獲得更高效能的同時,有效降低整體IT基礎設施擁有成本(TCO)。
MemVerge開發的Memory Machine大記憶體虛擬化軟體,可執行在i4p持久記憶體例項中,將其中的持久記憶體和普通記憶體進行融合,可以透明地使用大記憶體資源,無需對應用進行改造,即可充分發揮持久記憶體的全部效能;其軟體的高階功能“ZeroIO記憶體快照”,可以完全避免臨時資料的磁碟IO過程,實現客戶應用效能的飛躍。同時通過阿里雲端計算巢還實現了Memory Machine大記憶體虛擬化軟體與雲平臺的標準化整合,實現快速的軟體交付部署和標準化的運維管理,大幅提升了業務效率。
“這能夠使我們的單細胞資料分析業務完全消除IO瓶頸,並在實際的分析任務中將持久記憶體的大容量能力充分利用起來,讓任務的併發能力提升了5倍以上,且該方案能讓多細胞數,大樣本任務能順利地執行成功,對提高我們生信使用者的業務吞吐能力和工作效率有非常大的助力。”尋因生物公司生物部張廣鑫表示。