1. 程式人生 > 資訊 >一個咖啡杯裝下全世界的資料,DNA 儲存晶片神奇在哪?

一個咖啡杯裝下全世界的資料,DNA 儲存晶片神奇在哪?

我們正處於資料爆炸的時代,全球資料量呈指數級增長!

國際資料機構 IDC 預測,2025 年,全球資料量將達到 175ZB,5 年平均複合增長率 8%。1ZB 等於 1 萬億 GB,如果 175ZB 資料用容量 1GB 的行動硬碟來裝,至少需要 175 萬億個硬碟。在未來,資料儲存問題將成為網際網路發展的痛點。

為了解決資料儲存這一難題,受生物學的啟發,研究人員瞄準了人體內的 DNA。

最大的人類染色體含有近 2.5 億個鹼基對,如果每個鹼基對上都能儲存資料,理論上,麻省理工學院生物工程教授 Mark Bathe 說,一個裝滿 DNA 的咖啡杯就可以儲存世界上所有的資料。這樣看來,儲存 175ZB 的資料也就不在話下了。

這樣一個前景可觀的新興儲存技術,在今年 3 月被寫進“十四五”規劃綱要草案中。不僅如此,2021 年層出不窮的相關研究及落地進展,令 DNA 儲存技術愈發受到關注。

例如 1 月 11 日,Nature 子刊上發表了哥倫比亞大學將 hello world 翻譯成鹼基語言錄入大腸桿菌 DNA 的相關論文;5 月 26 日,由中科院深圳先進技術研究院孵化的中科碳元成立,專注於推進 DNA 資料儲存研發及商業化;11 月 12 日,東南大學劉巨集團隊將校訓“止於至善”寫進 DNA 的論文發表於 Science Advances;11 月 24 日,微軟公佈首個奈米級 DNA 儲存寫入器……

需要注意的是,廣義上的 DNA 晶片是基因組學和遺傳學研究的工具,指在固相支援物上原位合成寡核苷酸或者直接將大量預先製備的 DNA 探針以顯微列印的方式有序地固化於支援物表面,然後與標記的樣品雜交。因為其支援物表面常是計算機晶片,因此稱其為 DNA 晶片。

DNA 晶片型別多樣,包括檢測基因、染色體或用於臨床診斷用的晶片,而其中模仿 DNA 分子結構進行資料儲存的是我們今天討論的重點,也就是 DNA 儲存晶片。

01. 鹼基與二進位制對應,人手長的 DNA 鏈可儲存 10 億 G 資料

從遠古石牆上刻的圖案到文字的出現,再到最重要的資訊載體書籍的產生,我們產生的資訊其實並不多。但自從進入資訊時代,人類在過去 50 年裡記錄的資訊已經遠遠超過過去 2000 年的資訊。

我們處在資訊爆炸的大資料時代,所有網際網路中的資訊都作為資料儲存下來,從網頁、應用程式到安防、衛星領域應有盡有。

根據國際資料組織 IDC 的資料,2013 年至 2015 年全球大資料儲存量分別為 4.3ZB、6.6ZB、8.6ZB,增速維持在 40% 左右,而到 2016 年全球大資料儲存量達到 16.1ZB,增長率達到 87.21%。2017 年至 2019 年全球大資料儲存量分別為 21.6ZB、33ZB、41ZB,2020 年全球資料量達到了 60ZB。在大資料領域不斷髮展的同時,為了滿足海量的資料儲存需求,儲存方式也在不斷髮生變化。

▲ IDC 監測 2015-2020 年全球資料量變化趨勢以及 2025 年預測

DNA 是儲存遺傳資訊的載體,攜帶有合成 RNA 和蛋白質所必需的遺傳資訊,它可以對生物的所有資訊進行編碼。

上世紀 50 年代,就有研究人員發現了生物特徵和人造物體的關係。DNA 分子由四種鹼基組成,資料由二進位制 0 和 1 組成;DNA 用來儲存遺傳資訊,資料正好需要一個介質儲存,由此蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)想到,是否可以參考 DNA 結構來儲存資料?

與傳統的儲存介質不同,DNA 儲存技術有如下顯著優勢。

首先是 DNA 儲存密度高。一個 DNA 分子可以保留一個物種的全部遺傳資訊,最大的人類染色體含有近 2.5 億個鹼基對,那麼就意味著一條和人手差不多長的 DNA 鏈,就可以儲存 1EB(1EB=10.74 億 G)資料。

與硬碟和快閃記憶體的資料儲存密度相比,硬碟儲存每立方厘米約為 1013 位,快閃記憶體儲存約為 1016 位,而 DNA 儲存的密度約為 1019 位。

其次是 DNA 分子儲存具有穩定性。今年 2 月,國際頂級學術期刊 Nature 上的一篇論文稱古生物學家在西伯利亞東北部的永久凍土層中提取到距今 120 萬年猛獁象的遺傳物質,並對其 DNA 進行了解析,這也進一步重新整理了 DNA 分子的儲存年代紀錄。

據悉,DNA 至少可保留上百年的資料,相比之下,硬碟、磁帶的資料最多隻能保留約 10 年。

最後,DNA 儲存維護成本低。以 DNA 形式儲存的資料易於維護,和傳統的資料中心不同,不需要大量的人力、財力投入,僅需要儲存在低溫環境中。

在能耗方面,1GB 的資料硬碟儲存能耗約為 0.04W,而 DNA 儲存的能耗則小於 10-10W。

02. 低成本擴大規模 可放置數百萬個 DNA 序列

上個世紀 50 年代,科學家已經提出建立人造物體與微觀世界的生物特徵相似的想法,並且認為該人造物體將具有更加廣泛的能力。不到十年,蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)就獨立提出了可以利用 DNA 和 RNA 分子來進行資訊記錄、儲存和檢索的可能性。

DNA 進行資料儲存的應用真正開始於 1988 年,藝術家喬戴維斯和哈佛大學的研究人員合作,在大腸桿菌的 DNA 序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過 5x7 的矩陣儲存到 DNA 序列中。他們用二進位制中的 1 代表圖片中的暗畫素,0 代表圖片中的亮畫素。

在之後的研究中,研究人員提出了多種 DNA 儲存的編碼方式。2011 年,研究團隊對一本 659KB 的書籍進行編碼,通過一對一對應,由腺嘌呤或胞嘧啶表示二進位制中的 0,鳥嘌呤或胸腺嘧啶表示 1。然而,最後研究人員檢查資料儲存結果時發現,在 DNA 中出現了 22 個錯誤。這種一一對應的編碼方式的精度較低。

DNA 是由四種鹼基結合成鹼基對,並組成螺旋結構。四種鹼基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然後依據鹼基互補配對原則,來排列 DNA 分子儲存遺傳資訊。這四個程式碼也為 DNA 儲存晶片提供了一個合適的編碼環境。

▲ DNA 分子結構示意圖

DNA 儲存技術包括資訊編碼、儲存、檢索、解碼四個步驟。在計算機中,資料儲存需要用二進位制 0 和 1 來表示,使用 DNA 來儲存資料首先需要將 0 和 1 轉化為 DNA 中的四個鹼基 A、C、T、G,建立具有正確鹼基序列的 DNA 螺旋結構。合成 DNA 後在體內或體外進行儲存。在解碼時,DNA 測序儀會轉錄該 DNA 結構中的鹼基序列,通過解碼軟體將其轉化為 0 和 1,還原資料資訊。

2012 年,哈佛大學的研究團隊證實,DNA 可以作為一種和硬碟驅動器、磁帶類似的儲存介質。他們通過 DNA 對數字資訊進行編碼,包括 53400 位元組的 HTML 草稿,11 張 JPG 圖片和一個 JavaScript 程式,利用位與鹼基一對一對映,但這種方式會使得相同鹼基長時間執行,測序過程容易出錯。

這種簡單的一對一編碼形式,在 2013 年得到了突破。歐洲生物資訊學研究所(EBI)的研究人員在論文中稱,他們已經實現了超過 500 萬位資料的儲存、檢索和複製,並且所有 DNA 檔案都以 99.99% 到 100% 的準確度再現了資訊。在編碼過程中,研究小組加入了糾錯編碼方案,並採用了可通過序列識別的重疊短寡核苷酸的編碼方式。

此後,哥倫比亞大學、華盛頓大學、帝國理工學院等研究團隊都開展了一系列研究。

為了證明 DNA 編碼資料的長期穩定性,2015 年 2 月 4 日,蘇黎世聯邦理工學院的研究人員在國際頂級期刊 Angewandte Chemie International Edition 上發表了相關論文,研究人員通過 Reed-Solomon 糾錯編碼和溶膠、凝膠將 DNA 封裝在二氧化矽玻璃球中來增加冗餘,而這可能是 DNA 儲存晶片的最早期形態。

2021 年 11 月起,多個研究團隊公佈了 DNA 儲存晶片研究的新進展,包括我國東南大學、微軟研究院、伊利亞諾州西北大學以及佐治亞理工學院的研究小組。

11 月 12 日,我國東南大學生物科學與醫學工程學院、生物電子學國家重點實驗室的劉巨集團隊成功將校訓“止於至善”存入一段 DNA 序列中,該論文發表於 Science Advances。

為了實現 DNA 儲存的微型化、整合化、自動化,該研究小組對測序過程進行了優化。基於電化學的單電極 DNA 合成和測序方法,通過電化學脫保護技術改進傳統亞磷醯胺化學合成方法,並基於電荷震盪現象對電極表面的 DNA 分子進行測序,成功將校訓進行編碼和解碼。

▲ 劉巨集團隊基於電化學 DNA 合成與測序的 DNA 資料儲存系統流程圖(圖片來源為東南大學官網)

11 月 24 日,微軟研究院與華盛頓大學分子資訊系統實驗室(MISL)合作在 DNA 儲存上取得突破的論文發表於 Science Advances 上,該研究小組公佈首個奈米級 DNA 儲存寫入器,DNA 晶片上的分子控制器和 DNA 寫入配有 PCIe 介面,可以一次性構建四股合成 DNA,產生包含 100 個鹼基的 DNA 鏈。

微軟研究院稱,更長的 DNA 鏈會容易出現錯誤,但隨著硬體的發展,這都會得到改進。該項實驗證明了 DNA 螺旋結構擴大儲存規模的可能性。

今年 11 月 29 日,伊利諾伊州西北大學合成生物學中心提出了將資訊記錄到 DNA 的新方法釋出於《基因組學研究(Technology Networks)》期刊中,在編碼環節他們試圖通過 DNA 本身具有的能力來建立一種新的資料儲存解決方案。

在實驗過程中,他們使用一種新的酶促系統來合成 DNA,將快速變化的環境訊號直接記錄到 DNA 序列中。西北大學工程學教授 Keith EJ Tyo 稱,通過直接控制合成 DNA 的酶,可以實現提前表達和連續儲存資訊。

為了使 DNA 資料儲存在擴大儲存規模的同時能降低成本,12 月 1 日,佐治亞理工學院(GTRI)高階研究科學家尼古拉斯・吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)採訪時說:“我們新晶片上的功能密度大約比當前的商業裝置高出 100 倍。”

他們設計的晶片可以以極低的成本,通過超密集格式使 DNA 鏈實現增長,獲得大規格的儲存容量。這個微晶片配備了 10 組幾百奈米深的“微孔”,使得 DNA 分子在這中間平行生長,最終在晶片上積壓了數百萬個 DNA 序列。相比於傳統的合成 DNA 製造過程,這種方法採用電化學區域性啟用合成,成本更加低廉。

▲ 佐治亞理工學院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)

03. 合成 2MB 需要 7000 美元 讀取需要 2000 美元

不斷的研究表明,DNA 儲存技術將成為跨時代的儲存方式。但從上世紀 50 年代提出至今,其發展一直沒有重大的實質性進展。微軟研究院作為 DNA 資料儲存的早期入局者,2015 年開始進行相關研究,直到 2019 年才有研發進展,他們展示了一個全自動系統來編碼和解碼 DNA 中的資料資訊。

DNA 儲存晶片能夠實現高密度、長時間的儲存特性,但目前該項技術還不能廣泛運用於計算機領域,目前主要針對一些不常用但需要儲存的內容。DNA 儲存晶片無法商業化,大概有以下幾點原因。

首先,DNA 儲存資料的寫入和讀取成本高昂。2017 年哥倫比亞大學的實驗顯示,合成 2MB 的 DNA 資料需要 7000 美元,而讀取資料需要 2000 美元,儘管這相比於 2013 年每兆 12400 美元的成本已經大大降低,但如果使用者需要以 DNA 形式儲存 1GB 的電影,編碼大約需要花費 358 萬美元,而讀取資料還需要 102 萬美元。

其次,DNA 儲存資料的解碼過程需要大型工具。目前 DNA 儲存技術的解碼過程,還需要依賴測序儀對 DNA 分子進行排序,市面上量產的測序儀大多都用於小型實驗室、臨床應用等時效性要求較高的場景,距日常使用還很遠。

▲ 測序服務供應商 Illumina 的測序儀產品 iSeq 100(圖片來源為 Illumina 官網)

此外,DNA 儲存技術的讀寫速度慢。2021 年 12 月初,佐治亞理工學院的研究將 DNA 儲存速度提升到了每天寫入 20GB 資料,目前固態硬碟的讀寫速度大約為每秒 500MB。IDC《資料時代 2025》的報告顯示,全球每年產生的資料在 2025 年將達到 175ZB,相當於每天產生 491EB 的資料。即使 DNA 儲存晶片的密度足夠大,其實時讀取速度也無法滿足當前的資料儲存需求。

DNA 儲存晶片是未來大容量儲存較為理想的介質,目前的研究進展大部分都處於概念驗證階段,其硬體裝置的落地還需要很長一段時間。

04. 結語:DNA 儲存商業化的關鍵,實現低成本、高密度

DNA 儲存晶片儲存密度高、穩定性高、易於維護的優勢決定了它成為下一代儲存裝置的可能。不過該項技術的進一步商業化還有很多限制,例如成本高昂、儲存環境限制較多、實時讀取速度慢等,這些都表明其變成主流儲存裝置還有很長一段路要走。

我們處於數字時代,從智慧手機、平板、PC 到可穿戴裝置每天都會產生大量資訊,因此這個現實條件決定,找到效能要求更高且更加低成本的儲存裝置迫在眉睫。

DNA 的半衰期為 521 年,在一個冰冷或合適的條件下,DNA 可以持續存在數十萬年,甚至幾百萬年,如果 DNA 儲存技術真正實現商用,在未來,我們的資料檔案可能將變成“化石”留存下來。