1. 程式人生 > 資訊 >科學家開發標記和檢索 DNA 資料檔案新技術,DNA 資料儲存有望成真

科學家開發標記和檢索 DNA 資料檔案新技術,DNA 資料儲存有望成真

北京時間 6 月 15 日訊息,據國外媒體報道,在近期的一項新研究中,美國麻省理工學院的科學家開發了一種標記和檢索 DNA 資料檔案的技術,這或許能讓 DNA 資料儲存成為可能。

此時此刻,地球上大約有 10 萬億吉位元組(GB)的資料量,而每一天,人類製造出來的電子郵件、照片、社交媒體動態和其他數字檔案加起來,又有 250 萬吉位元組的資料。這些資料中的大部分都儲存在名為“艾位元組(exabyte,簡稱 EB)資料中心”的巨大設施中(1EB 相當於 10 億 GB),其規模可能有幾個足球場那麼大,建造和維護成本約為 10 億美元

許多科學家認為,解決天量資料儲存問題的另一種辦法在於包含我們遺傳資訊的生物大分子:脫氧核糖核酸(DNA)。從地球生命誕生至今,DNA 已經進化到可以以極高的密度儲存大量資訊,理論上一個裝滿 DNA 的咖啡杯就可以儲存世界上所有的資料。

我們需要新的解決方案,來儲存世界正不斷積累的大量資料,尤其是檔案資料,DNA 的密度甚至是快閃記憶體的 1000 倍。另一個有趣的特性是,DNA 聚合物一旦製造出來,它就不會再消耗任何能量。你可以把資料寫入 DNA,然後永久儲存起來。

科學家已經證明,影象和文字可以編碼為 DNA,但我們還需要一種從許多 DNA 片段混合物中挑選出所需檔案的簡單方法。在新研究中,科學家展示了一種方法,能將每個資料檔案封裝到一個 6 微米的二氧化矽球形“膠囊”中,並使用 DNA 短序列作為標籤,以顯示其檔案內容。

利用這種方法,研究人員從包含 20 張影象的 DNA 檔案中準確提取出了以 DNA 序列形式儲存的單個影象。考慮到可以用到的標籤數量,這種方法最多能擴充套件到 10^20 個檔案。

穩定的儲存介質

這些由二氧化矽製成的球體便是 DNA“檔案”,每個球體中都包含編碼特定影象的 DNA 序列,其外部覆蓋有描述影象內容的核苷酸條形碼

數字儲存系統將文字、照片和其他型別的資訊都編碼為一系列的 0 和 1,同樣的資訊也可以用構成遺傳密碼的 4 種核苷酸(A、T、G 和 C,即腺嘌呤、胸腺嘧啶、鳥嘌呤和胞嘧啶)編碼在 DNA 中。例如,G 和 C 可以代表 0,而 A 和 T 代表 1。

作為儲存介質,DNA 還具有其他幾個特點。首先,它非常穩定,而且合成和測序都相當容易(但目前還十分昂貴)。其次,它具有非常高的儲存密度 ——1 個核苷酸相當於 2 個位元,大約為 1 立方奈米。因此,以 DNA 形式儲存的資料完全可以放在我們的手掌中。

這種儲存資料的新方法面臨著諸多障礙,首先就是合成如此大量 DNA 需要耗費的成本。目前,寫入 1 拍位元組(100 萬 GB)的資料需要花費 1 萬億美元。為了與磁帶(通常用於儲存檔案資料)競爭,估計 DNA 合成的成本需要降低約 6 個數量級,這一目標可能會在 10 年或 20 年內實現,就像過去幾十年來快閃記憶體儲存資訊的成本大幅下降一樣。

除了成本之外,使用 DNA 儲存資料的另一個主要瓶頸是,我們很難從所有檔案中挑選出想要的檔案。

假設寫入 DNA 的技術已經很先進,可以實現在 DNA 中寫入 1 艾位元組或 1 澤位元組(zettabyte,簡稱 ZB,1ZB=1000EB)資料的成本效益,會發生什麼?你會有一大堆的 DNA,也就是無數的檔案、影象或電影和其他東西,但你需要在其中找到想要的某一張圖片或某一部電影,這就像大海撈針。

目前,DNA 檔案通常使用 PCR(聚合酶鏈式反應)方法來檢索。每個 DNA 資料檔案都包含一個與特定 PCR 引物結合的序列。為了讀取某個特定的檔案,需要將該引物新增到樣品中,找到並放大所想要的序列。然而,這種方法的一個缺點是,引物與目標序列以外的 DNA 序列之間可能存在串擾,導致不必要的檔案輸出。此外,PCR 的檢索過程需要用到酶,最終會消耗庫中的大部分 DNA,這有點像在乾草堆裡找一根針,因為其他所有 DNA 都沒有被放大,因此基本上它們都被扔掉了。

解決 DNA 檔案檢索難題

研究人員將這樣的影象儲存在 DNA 中

麻省理工學院的研究小組開發了一種新的檢索技術,希望取代 PCR 方法。他們將每個 DNA 檔案封裝到一個微小的二氧化矽膠囊中,每個膠囊都貼上了由單鏈 DNA 組成的“條形碼”,與檔案內容相對應。為了證明這種方法的成本效益,研究人員將 20 個不同的影象編碼到大約長度為 3000 個核苷酸的 DNA 片段中,這大致相當於 100 個位元組(他們的研究還顯示,這些膠囊可以容納高達 1GB 的 DNA 檔案)。

研究中的每個檔案都有相應的條形碼標籤,如“貓”或“飛機”等。當研究人員想要提取一個特定的影象時,他們會取出一個 DNA 樣本,加入與目標標籤相對應的引物。例如,老虎的影象對應的標籤是“貓”“橘色”和“野生”,而家貓的影象對應“貓”“橘色”和“家養”。

這些引物用熒光或磁性顆粒標記,便於從樣本中提取並識別匹配片段。通過這種方法,研究人員可以將需要的檔案移出來,剩下的 DNA 則完整地放回去,繼續儲存資料。他們的檢索過程允許布林邏輯語句,如“總統和 18 世紀”會生成“喬治・華盛頓”的結果,這很類似谷歌的影象檢索。

在目前的概念驗證階段,搜尋速度是每秒 1000 位元組(1KB)。檔案系統的搜尋速度是由每個膠囊的資料量大小決定的,而目前限制資料量大小的因素就是在 DNA 上寫入 100 兆位元組(MB)資料所需的高昂成本,以及可以並行使用的分類器的數量。如果 DNA 合成變得足夠便宜,就能夠用這種方法將每個檔案儲存的資料量最大化。

研究人員所使用的條形碼 —— 單鏈 DNA 序列 —— 取自哈佛醫學院遺傳學和醫學教授史蒂芬・埃利奇開發的序列庫,其中包含了 10 萬個序列。如果給每個檔案貼上兩個這樣的標籤,就可以唯一地標記 100 億(10^10)個不同的檔案;如果每個檔案上有 4 個標籤,就可以唯一地標記 10^20 個檔案。

在 DNA 中寫入、複製、讀取,以及用 DNA 進行低能耗的檔案資料儲存方面,我們取得了快速進步,但這也使得從巨大的資料庫(10^21 位元組,澤位元組規模)中精確檢索資料檔案變得極為困難,這項新研究引人注目的地方在於,它使用一個完全獨立的 DNA 外層解決了這個問題,擴充套件了 DNA 的不同屬性(雜交而非測序),而且使用的是現有的儀器和化學試劑。

科學家設想這種 DNA 封裝技術可以用於儲存“冷”資料,即儲存在檔案中但不經常訪問的資料。目前,研究實驗室已經成立了一家名為 Cache DNA 的初創公司,正在開發 DNA 的長期儲存技術,既可以用於長期的 DNA 資料儲存,也能用於短期的臨床和其他現有的 DNA 樣品儲存。

雖然我們可能還需要一段時間才能將 DNA 作為資料儲存介質,但目前在 Covid-19 檢測、人類基因組測序和其他基因組學領域中,對於 DNA 和 RNA 樣品的低成本和大規模儲存的解決方案都有很緊迫的需求。