AlphaFold2 成功祕訣:注意力機制取代卷積網路,預測準確性提升超 30%
最近,DeepMind 開源 AlphaFold2,讓學術圈再一次沸騰了。
這意味著,對於普通研究人員而言曾需要花幾年時間才能破解的蛋白質結構,現在用 AlphaFold2 幾小時就能算出來了!
那麼,如此厲害的 AlphaFold2 究竟如何做到的呢?
DeepMind 團隊已經將它的詳細資訊在《Nature》上公開發表。
現在,就讓我們來看看 AlphaFold2 的魔法是怎麼實現的吧。
卷積消失了,Attention 來了
論文中,研究人員強調 AlphaFold2 是一個完全不同於 AlphaFold 的新模型。
的確,它們使用的模型框架都不一樣,這也是 AlphaFold2 準確性能夠突飛猛進的主要原因。
此前 AlphaFold 中所有的卷積神經網路,現在都被替換成了 Attention。
為什麼要這樣做呢?
我們首先要了解一下 AlphaFold 的工作原理:
它主要是通過預測蛋白質中每對氨基酸之間的距離分佈,以及連線它們的化學鍵之間的角度,然後將所有氨基酸對的測量結果彙總成 2D 的距離直方圖。
然後讓卷積神經網路對這些圖片進行學習,從而構建出蛋白質的 3D 結構。
▲AlphaFold 主要架構
但這是一種從區域性開始進行預測的方式,很有可能會忽略蛋白質結構資訊的長距離依賴性。
而 Attention 的特點剛好可以彌補這一缺陷,它是一種模仿人類注意力的網路架構,可以同時聚焦多個細節部分。
這樣可以使得框架預測的結果更加全面、準確。
在 CASP13 中,AlphaFold 預測的準確性還只有不到 60 分。
但是在 CASP14 中 AlphaFold2 就將準確性直接拔高到了 92.4/100。
圖網路 + Attention
具體來看,AlphaFold2 主要利用多序列比對(MSA),把蛋白質的結構和生物資訊整合到了深度學習演算法中。
它主要包括兩個部分:神經網路 EvoFormer 和結構模組(Structure module)。
在 EvoFormer 中,主要是將圖網路(Graph networks)和多序列比對(MSA)結合完成結構預測。
圖網路可以很好表示事物之間的相關性,在這裡,它可以將蛋白質的相關資訊構建出一個圖表,以此表示不同氨基酸之間的距離。
研究人員用 Attention 機制構建出一個特殊的“三重自注意力機制(Triangular self-attention)”,來處理計算氨基酸之間的關係圖。
▲三重自注意力機制(Triangular self-attention)
然後,他們將這一步得到的資訊與多序列比對結合。
多序列比對主要是使相同殘基的位點位於同一列,暴露出不同序列之間的相似部分,從而推斷出不同蛋白質在結構和功能上的相似關係。
計算出的氨基酸關係與 MSA 進行資訊交換,能直接推理出空間和進化關係的配對錶徵。
預測所有原子的 3D 結構
架構的第二部分是一個結構模組(Structure Module),它的主要工作是將 EvoFormer 得到的資訊轉換為蛋白質的 3D 結構。
▲結構模組(Structure module)
在這裡,研究人員同樣使用了 Attention 機制,它可以單獨計算蛋白質的各個部分,稱為“不變點注意力(invariant point attention)”機制。
它以某個原子為原點,構建出一個 3D 參考場,根據預測資訊進行旋轉和平移,得到一個結構框架。
▲不變點注意力(invariant point attention)
然後 Attention 機制會對所有原子都進行預測,最終彙總得出一個高度準確的蛋白質結構。
此外,研究人員還強調 AlphaFold2 是一個“端到端”的神經網路。
他們會反覆把最終損失應用於輸出結果,然後再對輸出結果進行遞迴,不斷逼近正確結果。
這樣做既能減少額外的訓練,還能大幅提高預測結構的準確性。
為破解蛋白質摺疊謎題帶來希望
Alphafold2 的出現,能更好地預判蛋白質與分子結合的概率,從而極大地加速新藥研發的效率。
此次 Alphafold2 開源,將進一步推動科學界前進。
據瞭解,目前 DeepMind 已經與瑞士的一些研究團隊合作,通過預測蛋白質結構開展藥物方面的研究。
事實上,研究 Alphafold2 預測程式本身,也為探索蛋白質結構摺疊原理帶來了希望。
芝加哥大學的計算生物學家 Jinbo Xu 就表示:
這些工具的開源,意味著科學界能夠在此基礎上開發出更加強大的軟體。
論文地址:
https://www.nature.com/articles/s41586-021-03819-2_reference.pdf
補充材料:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf*