業界 | Nature:人工智慧協助科學家解密基因序列
快速測序基因組的能力為科學家提供了大量的資料,但瞭解進化是如何塑造了人類仍然是一項艱鉅的任務。
精確確定人類基因序列在哪裡及如何進化就像大海撈針。每個人的基因組包含30億個稱為核苷酸的構建模組,研究人員必須彙編來自數千人的資料,以期發現進化壓力塑造基因的模式。
為了找到這些模式,越來越多的遺傳學家轉向一種稱為深度學習的機器學習方法。該方法的支持者表示,與傳統的統計方法相比,在自然選擇的特徵描述上,深度學習演算法需要的明確假設更少。
“機器學習正在把推測進化的能力自動化,”俄勒岡大學的人口遺傳學家Andrew Kern說, “毫無疑問,它正向前發展。”
麻省理工—哈佛大學Broad研究所的人員開發了一種名為“DeepSweep”的深度學習工具。該工具標記了20,000個單個核苷酸供進一步研究。研究人員上個月在加州聖地亞哥舉行的美國人類遺傳學會年會上報告說,這些簡單突變或其中的一部分可能幫助人類在疾病,乾旱或達爾文所謂的各種“生活狀況”中生存下來。
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
自20世紀70年代以來,遺傳學家已經構建了數學模型來描述自然選擇在DNA中的獨特蹤跡。如果新出現的突變能夠使人比周圍人更好地生存和產生後代,那麼具有該突變基因的人群佔比將隨著時間的推移而增長。
一個例子是使成年人能夠消化牛奶的突變。進入成年期後,它使身體能夠產生乳糖酶(一種消化牛奶中的糖的酶)。用統計方法分析人類基因組後,研究人員發現該突變數千年前在歐洲通過社群迅速傳播——可能是因為牛奶中的營養物質使人能繁衍更健康的後代。如今,近80%的歐洲人後裔攜帶該突變基因。
然而,遺傳學家一直在努力識別和確認基因組的其他片段,這些基因片段因為提供了適應優勢而在整個種群中傳播。深度學習正擅長這類任務:發現隱藏在大量資料中的微妙模式。
但有一個問題。深度學習演算法通常使用真實資料來訓練,學習將資訊分類; 以Facebook為例,其面部識別演算法基於人們標註過的圖片。遺傳學家還不知道基因組的哪些部分是通過自然選擇形成的,因此不得不在模擬資料上訓練深度學習演算法。
布朗大學的人口遺傳學家Sohini Ramachandran表示,生成模擬資料時需要研究人員對自然選擇特徵作出假設。 “我們沒有正確標註過的資料,所以我們擔心可能無法正確模擬。”
康奈爾大學的人口遺傳學家Philipp Messer表示,深度學習演算法以黑箱執行,因此很難獲知識別資料模式時使用的標準。 “如果模擬資料有錯,則不清楚響應意味著什麼” ,他補充道。
使用深度學習演算法的研究人員確實也有一些方法可以窺視這個黑箱。 DeepSweep的作者在模擬基因組中插入了一些自然選擇特徵並在上面訓練他們的演算法。當他們在真實的人類基因組資料上進行測試時,該演算法聚焦到了讓成人可以消化牛奶的乳糖酶突變。Broad研究所的計算遺傳學家Joseph Vitti說,這增強了團隊對該工具的信心。
研究人員隨後篩選了來自1000 Genomes Project的資料(一項國際計劃,測序來自全球2,504人的DNA),並使用統計方法識別可能處於進化壓力下的區域,這些區域約佔人類基因組的三分之一。接下來,DeepSweep評估了每個區域。在分析結束時,它提供了含20,000個突變點位的列表供進一步研究。
在接下來的幾個月裡,Vitti和同事將把這些突變編碼到活細胞DNA中,並比較有無突變的情況,來研究這些突變的作用。
繼續尋尋覓覓中
其他幾位研究人員正在研究深度學習演算法,以尋找基因組中適應環境的徵象。由Kern開發的深度學習模型表明,首先,人類的大多數突變既非有益也非有害3。相反,它們似乎在種群中漂移,增加了自然遺傳變異性,並且只在環境變化使變異攜帶者擁有進化優勢時才變得更加頻繁。
2月,Ramachandran和她的同事報告了他們開發的深度學習演算法SWIF(r)。當他們將其用於來自非洲南部的Khomani San族群的45名成員的基因組時,它標示了與新陳代謝相關的基因附近的變異。研究人員推測這些變化可能發生在幾千年前,幫助族群成員在缺乏保障的食物週期儲存脂肪。
該突變的影響還需進一步考察。但與DeepSweep確定的突變基因一樣,由SWIF(r)選出的候選基因給了研究人員一個起點。
“這是尋找自然選擇蹤跡的極其強大的方法,”Broad研究所的計算遺傳學家和Vitti的博士生導師Pardis Sabeti說。 “儘管我剛開始這項研究時,有人認為根本無法精確定位突變。”
如今,那些不可能的設想正在一步一步地實現
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。