1. 程式人生 > 實用技巧 >J. Cheminform. | 基於化學基因組學中深度和淺層學習預測藥物特異性

J. Cheminform. | 基於化學基因組學中深度和淺層學習預測藥物特異性

作者 | 李梓盟

審稿 | 董靖鑫

今天給大家介紹由巴黎文理研究大學計算生物研究中心的Veronique Stoven教授課題組發表在J Cheminform上的一篇文章。作者提出一種具有深度學習功能的化學基因組神經網路(CN),以分子圖和蛋白質序列編碼器學習的分子和蛋白質表示形式的組合作為輸入。實驗結果顯示,在大型資料集上深度學習CN模型優於最先進的淺層方法,與基於專家的描述符的深層方法相當;而在小型資料集上淺層方法比深層學習方法具有更好的預測效能。作者還使用了資料增強技術,即多檢視和遷移學習,以提高化學基因組神經網路的預測效能。

1

介紹

合理藥物設計的最新範例是治療靶標,它將疾病與一種或幾種蛋白質靶點相關聯,屬於與疾病發展有關的生物途徑。藥物發現過程的目標是確定一種能夠與蛋白質靶標結合並改變疾病發展的藥物分子,但是,藥物發現過程取得的成功有限,每年只有幾十種新藥進入市場。由於副作用和毒性,高通量篩選(HTS)所鑑定的大多數命中藥物都未能成為批准的藥物,這種情況的部分原因是由於藥物缺乏特異性,與所謂的“靶標”蛋白髮生了意外相互作用。化學基因組學是定量構效關係(QSAR)方法的概括。QSAR方法可以預測給定蛋白質的相互作用,而化學基因組模型經過訓練可以同時預測幾種蛋白質的相互作用,其基本思想是:靶相互作用可以受益於其他靶與其他分子之間已知的相互作用。

本文中作者提出了一個正式的方案,稱為化學基因組神經網路(CN),用於表示分子和蛋白質在上下文中學習化學基因組學的深度學習。作者首先比較了最新的淺層和深層機器學習方法的預測效能,在小型資料集上較簡單且對計算要求較低的淺層方法比深度學習方法的效能更好。在大型資料集上,提出的具有表示學習功能的化學基因組神經網路與使用基於專家的描述符的最先進的淺層和深層方法競爭,但最終並不優越。此外,作者還考慮了資料增強技術,即多檢視和遷移學習,可以提高深度學習方法在小型資料集上的預測效能。

2

模型

CN網路模型如下圖所示,它包含四個主要組成部分:(1)分子編碼器,可根據分子的結構學習分子的抽象描述符; (2)蛋白質編碼器,可從它們的氨基酸序列中學習抽象描述符; (3)結合分子和蛋白質描述子以構建(分子-蛋白質)對的成對潛在表示的操作或神經網路模組;(4)MLPpair(對於成對的多層感知器,也稱為前饋神經網路(FNN)用來預測(分子-蛋白質)對是否相互作用。

分子編碼器 分子可以用分子圖G =(V,E)二維表示,其中V是頂點(或節點)的集合,E是邊的集合。節點具有原子特性(例如原子型別或物理化學特性),而邊緣具有鍵特性(例如鍵型別或拓撲特性)。在本次研究中,因為圖神經網路(GNN)具有多功能性和更大的改進空間,因此作者使用GNN對錶示分子的無向圖進行編碼,具體演算法如下圖所示。在每一層,所有節點在表示向量中聚集來自其本地鄰居的資訊,這些資訊在分子的m(l)表示中聚集。在每次迭代中,節點從其他節點獲取資訊。最後,通過組合m(l)個表示來建立分子的整體表示m。

蛋白質序列編碼器 用神經網路編碼器編碼蛋白質需要定義氨基酸的輸入屬性,例如“one-hot”編碼。由於蛋白質是氨基酸序列,因此可以通過卷積神經網路(CNN)和遞迴神經網路來學習其表示形式,作者觀察到bi-LSTM網路沒有提高DTI預測的效能,因此作者使用了CNN編碼蛋白質。

結合蛋白質和分子編碼 結合了所學的蛋白質和分子表示的CN網路的Comb塊使用了直觀的串聯功能。

MLPpair 化學基因組神經網路基於最終的多層感知器(MLP)執行DTI預測任務。它由堆疊的全連線層組成,其中第L層的每個神經元都將第L-1層的所有神經元輸出作為輸入,因此將其輸出定向到第L + 1層的所有神經元。資料經過非線性變換後,中間層可以看作是原始資料的隱藏抽象表示。MLPpair網路可以視為表示學習模型,因為它可以為考慮的預測任務學習最佳表示。

3

實驗

資料集

DrugBank資料庫被廣泛用作生物活性資料庫,它包含大約17000個高質量標準的藥物靶標關聯。因此,作者使用DrugBank資料庫版本5.1.0構建了兩個相互作用資料集,這些資料集覆蓋了整個可藥物蛋白質組中的蛋白質。第一個資料集稱為DBHuman,保持了涉及人類蛋白質及其配體的相互作用,而第二個資料集稱為DBEColi,保持了涉及大腸桿菌蛋白及其配體的相互作用。作者還使用了來自ChEMBL資料庫的更大資料集,同時為了提供用於遷移學習的源任務,作者考慮了基於PubChem的資料集來對輔助任務上的分子編碼器進行預訓練,使用MolNet資料集(即PCBA資料集)構建了一個大型資料集。

評估程式

作者通過5倍巢狀交叉驗證來評估效能,記錄了每個測試摺疊的ROCAUC 和AUPR分數,主要參考AUPR。

參考方法

作者考慮了kronSVM ,NRLMF,以及scikit-learn 實現的隨機森林作為參考淺層方法。作為參考深度學習方法,作者考慮了一個簡單的前饋神經網路(FNN),將基於專家的數值特徵向量連線起來作為蛋白質和分子的輸入。

實驗結果

作者將化學基因組神經網路(CN)的效能與最新的參考方法(即用於機器學習的淺層方法的kronSVM和NRLMF,以及具有基於專家的描述符的FNN作為深度學習的輸入)的效能進行了比較,下圖顯示了在DBEColi和DBHuman資料集上獲得的ROCAUC和AUPR效能。

作者提出在小型DBEColi資料集(874個互動)上,所有方法的ROCAUC得分都非常接近,但是淺層NRLMF方法往往表現最佳。對於更重要的AUPR得分),NRLMF和kronSVM淺層方法明顯優於深層方法。總體而言,在深度學習方法中,所提出的CN比FNN參考方法表現更好。結果表明,在小型資料集(數千個互動或更少的互動)上,淺層方法應該是首選。在較大的DBHuman資料集(13,070個互動)上,就ROCAUC和AUPR而言,兩種深度學習方法CN和FNN均優於兩種淺層方法NRLMF和kronSVM。對於大型資料集(範圍為十千次互動或以上),深度學習方法應優先於淺層方法,因為它們在廣泛的設定下表現更好。作者指出將訓練集中的負樣本數量增加到正樣本數量的五倍,可使CN和FNN的效能有效提高。同時,作者觀察到在訓練集中越來越多的負值使CN受益比FNN略少。

作者認為直接以專家為基礎的蛋白質和分子特徵作為輸入進行訓練的參考FNN在某些情況下優於擬議的化學基因組神經網路。因此,作者考慮了兩個將蛋白質和分子的這些基於專家的知識和學到的特徵整合到最終的成對錶示中的體系結構。經過相應預訓練後,試驗結果表明,圖5中的模型體系結構所達到的效能明顯低於圖1的CN化學基因組神經網路和具有專家功能的參考FNN獲得的效能,圖6中的方法CN-feaMLP表現優於或相似於CN神經網路。

通過對形式相同的源任務進行預訓練來遷移學習 CN化學基因組網路在大型資料集(如DBHuman)上的效能優於深度和淺層機器學習方法(kronSVM或NRLMF),但在小型資料集(如DBEColi)上則不如。因此,作者選擇DBEColi來進行遷移學習。通過預訓練一個較大的,形式上完全相同的任務,即對DBHuman資料集進行預測,可以提高CN在小資料集(如DBEColi)上的預測效能,從而達到淺層方法的預測效能。具體方法是使用DBHuman上DTI預測的源任務來預訓練整個CN網路(蛋白質編碼器,分子編碼器和MLPpair),之後在較小的DBEColi資料集上重新訓練整個CN。

通過預訓練不同的源任務來進行遷移學習 作者使用PCBA資料集作為源任務,它包含有關成千上萬個分子的90種生物活性的資訊。將分子圖編碼器預先訓練在PCBA(分別為DBHuman)資料集上時獲得的最終模型稱為CN-currPCBA(分別為CN-currDBHuman)。實驗結果表明,總體而言,總體而言,相對於直接在DBEColi(CN和CN-currDBHuman)上進行訓練,在DBHuman上對分子圖編碼器進行預訓練可以提高化學基因組網路在一些設定下的預測效能。作者指出在PCBA上對分子圖編碼器進行預訓練的效能與在DBEColi上進行直接訓練的效能相似,但是在DBHuman進行預訓練時無法達到觀察到的效能。作者提出與從較大但不太相似的源任務(PCBA)進行遷移相比,從較小,更相似的源任務(DBHuman)進行遷移可能會更好地改善目標任務的預測效能。

4

總結

作者在本文中提出了稱為化學基因組神經網路(CN),對照淺層學習方法和深度學習方法,使用了不同大小的資料集,不同的訓練集/測試集/驗證集拆分方法,以及不同的遷移學習方法進行對比試驗。實驗結果顯示,在大型資料集上深度學習CN模型相比於其他的淺層和深度對照模型,有著相似或者更好的效能。但是,在小型資料集上淺層方法比深度學習方法具有更好的預測效能,使用預訓練的遷移學習也可以有效提高任務預測準確度。

程式碼

https:// github.com/bplaye/NNk_DTI

參考資料

Playe, B., Stoven, V. Evaluation of deep and shallow learning methods in chemogenomics for the prediction of drugs specificity. J Cheminform 12, 11 (2020). https://doi.org/10.1186/s13321-020-0413-0