1. 程式人生 > >Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks筆記

Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks筆記

利用級聯卷積和遞迴神經網路預測蛋白質二級結構 

Abstract

       蛋白質二級結構預測是生物資訊學中的一個重要問題。受近期深度神經網路成功的啟發,在本文中,我們提出了一種端到端深度網路,可以從整合的區域性和全域性上下文特徵預測蛋白質二級結構。我們的深層架構利用具有不同核心大小的卷積神經網路來提取多尺度的本地上下文特徵。此外,考慮到氨基酸序列中存在的長程依賴性,我們建立了一個雙向神經網路,由門控迴圈單元組成,以捕獲全域性背景特徵。此外,利用多工學習同時預測二級結構標記和氨基酸溶劑可及性。我們提出的深度網路通過實現最先進的效能證明了其有效性,即公共基準CB513的Q8精度為69:7%,CASP10的Q8精度為76:9%,CASP11的Q8精度為73:1%。我們的模型和結果是公開的。

 1 Introduction

      從蛋白質序列準確可靠地預測結構,特別是3D結構,是計算生物學中最具挑戰性的任務之一,並且對生物資訊學非常感興趣[Ashraf and Yaohang,2014]。 結構理解不僅對蛋白質分析至關重要,而且對包括藥物設計在內的實際應用也很有意義[Noble et al。,2004]。 瞭解蛋白質二級結構是蛋白質結構預測的重要中間步驟,因為蛋白質的二級結構反映了蛋白質中存在的區域性結構型別(如310-螺旋和β-bridge)。 因此,準確的二級結構預測顯著降低了三級結構的自由度,並且可以產生更精確和高解析度的蛋白質結構預測[Ashraf和Yaohang,2014; Zhou和Troyanskaya,2014; Wang等,2011]。

      蛋白質二級結構預測的研究可以追溯到20世紀70年代。在20世紀70年代,統計模型經常用於分析特定氨基酸出現在不同二級結構元素中的概率[Chou和Fasman,1974]。由於特徵不充分,這些模型的Q3精度,即三類分類:螺旋(H),鏈(E)和線圈(C)的準確度低於60%。在20世紀90年代,通過利用來自相同結構家族的蛋白質的進化資訊[Rost and Sander,1993]和位置特異性評分矩陣[Jones,1999],實現了顯著的改進。在此期間,利用這些功能,Q3精度超過70%。然而,當涉及更具挑戰性的8類分類問題時,進展停滯不前,需要區分以下8類二級結構要素:310?螺旋(G),_螺旋(H),_螺旋(I) ),_?strand(E),_?bridge(B),_?turn(T),bend(S)and loop or irregular(L)[Zhou and Troyanskaya,2014; Yaseen和Li,2014]。在21世紀,各種機器學習方法,特別是人工神經網路,已被用於改善效能,例如SVM [Sujun和Zhirong,2001],遞迴神經網路(RNNs)[Pollastri et al。,2002] ,概率圖形模型,如將CRF與神經網路相結合的條件神經場[Wang et al。,2011],生成隨機網路[Zhou and Troyanskaya,2014]。

       眾所周知,區域性環境對蛋白質二級結構預測至關重要。具體地,氨基酸鄰域的二級結構類別資訊是用於對該氨基酸所屬的二級結構進行分類的最有效特徵。例如,在圖1中,PDB 154L中的第18至第21個氨基酸[Simpson和Morgan,1983](從公眾可獲得的蛋白質資料庫2獲得)可能被賦予相同的二級結構標籤,因為它們的鄰居資訊。卷積神經網路(CNN)[LeCun et al。,1998],一種使用平移不變卷積核的特定型別的深度神經網路,可以應用於提取區域性上下文特徵,並且已被證明對許多自然語言處理有效(NLP)任務[Yih et al。,2011; Zhang et al。,2015]。受文字分類成功的啟發,本文采用具有不同核心大小的CNN從蛋白質序列中提取多尺度區域性上下文。

圖1:具有UniProtKB登入號(P00718)的PDB154L的氨基酸序列及其相應的3態二級結構,其由185個殘基組成。

       另一方面,不同型別的氨基酸之間的長程相互依賴性也為二級結構的類別提供了重要的證據,例如,一個_?strand通過與遠距離的其他_鍊形成的氫鍵來穩定[周和Troyanskaya,2014]。例如,同樣在圖1中,第4和第60個氨基酸可以被確定為共享相同的二級結構標籤,因為二硫鍵被註釋為連結1.類似於CNN,反覆神經網路(RNN)是另一種特定型別的神經具有迴圈連線的網路。它們旨在捕獲跨越大於本地上下文範圍的距離的依賴關係。在之前的工作[Sepideh et al。,2010]中,RNN模型在蛋白質二級結構預測方面表現不佳,部分原因是難以訓練此類模型。幸運的是,具有門和記憶結構的RNN,包括長期短期記憶(LSTM)[Hochreiter和Schmidhuber,1997],門復發單位(GRU)[Cho et al。,2014a]和JZ3結構[Jozefowicz et al。,2015] ],可以通過使用特定的門控制資訊流來人為地學習記憶和忘記資訊。在本文中,我們利用雙向門重複單元(BGRU)來捕獲來自相同蛋白質序列的氨基酸之間的長程依賴性。

      總之,本文的主要貢獻如下。

      我們提出了一種用於蛋白質二級結構預測的新型深度卷積和遞迴神經網路(DCRNN)。 該深度網路包括特徵嵌入層,用於區域性上下文提取的多尺度CNN層,用於全域性上下文提取的堆疊雙向RNN層,用於最終聯合二級結構的完全連線和softmax層以及溶劑可訪問性分類。 CB6133資料集,公共CB513基準測試以及最近的CASP10和CASP11資料集的實驗結果表明,我們提出的深度網路優於現有方法並實現了最先進的效能。

      據我們所知,這是第一次將雙向雙向GRU層應用於二級蛋白質結構預測。 消融研究表明它們是我們深層神經網路中最重要的組成部分。

      本文的其餘部分安排如下。 在第2節中,我們詳細介紹了我們提出的端到端深度模型。 我們在第3節中介紹了實施細節,實驗結果和消融研究。第4節總結了本文的最後評論。

2網路架構

        如圖2所示,我們用於蛋白質二級結構預測的深度卷積和遞迴神經網路(DCRNN)由四部分組成,一個特徵嵌入層,多尺度卷積神經網路(CNN)層,三個堆疊雙向門控迴圈單元(BGRU)圖層和兩個完全連線的隱藏層。我們的深層網路的輸入帶有蛋白質氨基酸序列,序列特徵和輪廓特徵的兩種型別的特徵。特徵嵌入層負責將稀疏序列特徵向量轉換為新特徵空間中的更密集的特徵向量。嵌入的序列特徵和原始的輪廓特徵被饋送到具有不同核心大小的多尺度CNN層,以提取多尺度的區域性上下文特徵。連線的多尺度區域性上下文流入三個堆疊的BGRU層,這些層捕獲全域性上下文。在級聯的CNN和BGRU層之上,有兩個完全連線的隱藏層,它們將連線的區域性和全域性上下文作為輸入。具有softmax啟用的第二完全連線層的輸出被饋送到輸出層,其執行8類二級結構和4類溶劑可及性分類。 

2.1 Feature Embedding

       為了更好地理解,蛋白質二級結構預測可以如下公式化。鑑於氨基酸序列X = x1; X2; ::: ;; xT,我們需要預測每個氨基酸的二級結構標記,S = s1; S2; ::: ;; sT,其中xi(2Rn)是對應於第i個氨基酸的n維特徵向量,si是8態二級結構標記。在本文中,輸入特徵序列X被分解為兩部分,一部分是編碼蛋白質中氨基酸型別的21維特徵向量序列,另一部分是從中獲得的21維輪廓特徵序列。 PSI-BLAST [Altschul等,1997]日誌檔案並通過邏輯函式重新調整[Jones,1999]。注意,第一序列中的每個特徵向量是稀疏的單熱向量,即,其21個元素中只有一個是非零,而輪廓特徵向量具有密集表示。為了避免特徵表示的不一致,我們採用自然語言處理的嵌入操作將稀疏序列特徵轉換為更密集的表示[Mesnil et al。,2015]。該嵌入操作被實現為具有嵌入矩陣Wemb 2 R21_Demb的前饋神經網路層,其將稀疏的21維向量對映為更密集的Demb維向量。在本文中,我們根據經驗設定Demb = 50,並用隨機數初始化嵌入矩陣。嵌入的序列特徵向量在被饋送到多尺度CNN層之前與輪廓特徵向量連線。 

圖2:我們用於預測蛋白質二級結構的端到端深度卷積和遞迴神經網路(DCRNN)。 輸入包括序列特徵和輪廓特徵。 通過特徵嵌入和連線,預處理的特徵被饋送到多尺度CNN層,其中多個核心大小用於提取多尺度區域性特徵。 作為本地上下文的級聯多尺度特徵流入三個堆疊的BGRU層以捕獲全域性上下文。 在堆疊的BGRU層之上,兩個完全連線的隱藏層用於多工聯合分類。

 2.2多尺度CNN

如圖2所示,我們的深層網路的第二個元件是一組多尺度卷積神經網路層。 鑑於具有嵌入和連線特徵的氨基酸序列 

其中~xi(2 Rm)是第i個氨基酸的預處理特徵向量。 為了模擬相鄰氨基酸的區域性依賴性,我們利用具有滑動視窗的CNN和整流線性單元(ReLU)[Nair and Hinton,2010]來提取區域性背景。 

其中F(2 Rf_m)是卷積核,f是沿著蛋白質序列的核的程度,m是單個氨基酸的特徵維數(本文中m = 71),b是偏差項和'ReLU' 是啟用功能。 核心經過完整的輸入序列併產生相應的輸出序列,~L = h~l 1; ~l2; :::;〜lT i,其中每個~li(2 Rq)有q個通道(本文中q = 64)。 由於氨基酸有時受到相對較大距離的其他殘基的影響,例如,在圖1中標記為連結2的二硫鍵中,兩個殘基在11的距離處具有相互作用,因此使用具有不同粒度的多尺度CNN層來 獲取多個本地上下文特徵對映。 在本文中,我們使用三個CNN層,其中f = 3,7和11.這導致三個特徵圖~L1;〜L2;〜L3。 這些多尺度特徵作為區域性上下文連線在一起L = concatenatef~L1;〜L2;〜L3g。

2.3 BGRUs

        除了區域性依賴性之外,長程依賴性(例如圖1中的第1行)也廣泛存在於氨基酸序列中。 多尺度CNN只能捕獲氨基酸之間的依賴性,所述氨基酸之間的距離不大於其最大核大小。 為了捕獲更大距離的依賴關係,我們利用雙向門複用單元(BGRU)。 

        遞迴神經網路(RNN)具有處理依賴於上下文的序列的強大能力。 然而,由於梯度消失,訓練RNN過去很困難[Bengio et al。,1994]。 僅在最近幾年,具有門控單元的RNN(例如,長期短期記憶(LSTM)和門再迴圈單元(GRU))變得實際有用。 在我們的網路中,GRU [Cho et al。,2014b]用於捕捉全球背景,因為與LSTM相比,它們以較少的引數實現了相當的效能[Jozefowicz等,2015]。 在與前面的等式相同的符號中,如果輸入是(lt;ht?1),則GRU的機制(如圖3所示)可以如下表示。

t;UT;〜HT; 如果隱藏單元的數量是k,則ht(2Rk)分別啟用復位門,更新門,內部儲存器單元和GRU輸出; Wlr; Whr; Wlu; Whu; Wl~h; Wh~h(2 R3q_k)是權重矩陣; 和br;蒲式耳; b~h(2 Rk)是偏差項。 另外,_,sigm和tanh分別代表元素乘法,sigmoid和雙曲函式。 與具有三個門(即輸入門,忘記門,輸出門),一個外部儲存器單元狀態和一個輸出狀態的LSTM相比,GRU僅具有兩個門(更新門,復位門)和一個輸出狀態。 它在LSTM中沒有最不重要的門(輸出門),並且將輸入門和忘記門合併在一起以形成更新門和復位門,其控制何時應該人為地記住或忘記資訊。 GRU中的引數總數僅為LSTM中的3 = 4 [Jozefowicz等,2015]。

\

圖3:柵極迴圈單元(GRU)的內部結構。

        氨基酸的二級結構標記不僅取決於序列中其前一個氨基酸的標記,還取決於其下一個氨基酸的標記。 因此,我們使用雙向GRU,每個GRU由前向GRU(從t = 0到t = T)和後向GRU(從t = T到t = 0)組成。 來自時間t的前向和後向GRU的輸出被連線在一起以同時形成來自雙向GRU(BGRU)的輸出。 此外,為了增強我們網路中的全球資訊流,三個BGRU通過丟失堆疊在一起以提高效能。 注意,堆疊BGRU的前向隱藏狀態計算為hz forward t = GRU(hz-1 t; hz forward t-1),其中z和hz-1 t代表層索引和前面的連線輸出 堆疊BGRU中的層。 最後,將獲得的區域性和全域性上下文連線在一起作為以下層的輸入。

2.4多工聯合特徵學習 

       考慮到不同蛋白質結構特性之間的相互作用,我們通過在兩個共享的完全連線的隱藏層中執行聯合特徵學習來訓練我們提出的模型以生成兩種不同但相關的結果型別,如圖2的分類部分所示。 ,我們提出的模型的輸出包括二級結構標籤si和溶劑可及性標籤ai的預測序列(四類分類問題,即絕對和相對溶劑可及性)。絕對和相對可及性通過DSSP程式計算的原始和標準化溶劑可及性值的特定閾值來判斷[Kabsch和Sander,1983],溶劑可及性與二級結構預測密切相關。根據[Ren et al。,2015]的多工訓練方法,將l2?norms作為正則項新增到損失函式中。此外,在堆疊的BGRU層和倒數第二層中採用了丟失[Srivastava等,2014]以避免過度擬合。關節損失功能可以如下表述。 

二級結構預測和溶劑可及性預測各自的損失函式,si和ai分別是二級結構標籤和溶劑可及性標籤的預測概率,s_i和a_i分別是二級結構和溶劑可及性的基本事實標籤,_是權重向量 ,N是殘留數。

3 Experimental Results 3.1 Datasets and Features

       我們使用四個公開可用的資料集,用PISCES CullPDB生成的CB6133 [Wang和Dunbrack,2003],CB513 [Cuff和Barton,1999] 3,CASP10 [Kryshtafovych等,2014]和CASP11 [Moult等,2014],評估我們提出的深度神經網路的效能。 CB6133是一個大的非同源蛋白質序列和結構資料集,有6128種蛋白質,包括用於訓練的5600種蛋白質(指數0至5599),用於驗證的256種蛋白質(指數5877至6132)和272種蛋白質(指數5605至5876)供測試用。請注意,CB6133的測試集與[Wang et al。,2016]中的測試集不同。 CB513是一個公共基準資料集,僅用於測試。由於CB513和CB6133之間存在冗餘,因此通過去除CB6133中與CB513中某些序列具有超過25%相似性的序列形成較小的CB6133過濾版本,如[Zhou和Troyanskaya,2014; Wang等,2016]。過濾後的CB6133資料集有5534種蛋白質,如果CB513用作測試集,它們都可以用於訓練。 CASP10和CASP11分別包含123和105個域序列。它們用於測試我們在過濾的CB6133資料集上訓練的網路的效能。二級結構預測的效能通過Q8精度來測量。 

       上述資料集中的每個蛋白質序列每個殘基具有55個通道資料。在55個通道中,21個通道用於序列特徵,其指定氨基酸的類別,21個通道用於序列概況(PSSM通過邏輯功能重新調整,PSSM通過PSI-BLAST計算針對UniRef90資料庫,具有E-值閾值0:001和3次迭代),8個通道用於二級結構類別標籤,2個通道用於溶劑可訪問性標籤(由DSSP程式通過3D PDB獲得)。雖然可以考慮使用其他功能來進一步提高效能,但本文將重點介紹網路架構。注意,在序列特徵,序列分佈和二級結構標記之後存在3個掩蔽通道。為了便於後續處理和實施,將這些資料集中所有蛋白質氨基酸序列的長度標準化為700.比700短的序列被截短,而短於700的序列用零填充。大多數序列短於700。

3.2 Implementation Details

           在我們的實驗中,使用[Asgari和Mofrad,2015]中的“生物學單詞”的視窗大小作為參考,使用具有核心大小3,7和11的多尺度CNN層來提取區域性上下文。 所獲得的3個特徵圖(每個具有64個通道)被連線在一起作為區域性上下文特徵向量。 三個堆疊的BGRU層中的每一個都具有600個隱藏單元。 他們以當地情境為輸入。 BGRU層的輸出通過壓差(= 0:5)進行正則化,以避免過度擬合。 從多尺度CNN層和BGRU層獲得的區域性和全域性背景被連線在一起並且通過ReLU啟用被饋送到兩個完全連線的層。 我們設定λ1= 1; λ2= 0:001用於平衡兩個聯合學習任務和正則化項。

        我們還利用套袋來獲得整體模型。 根據標準裝袋演算法,對於每個弱模型,我們從原始訓練集中隨機選擇512(約10%)蛋白質以形成驗證集,並且剩餘的訓練樣本形成訓練集。 我們的整體模型由10個獨立訓練的弱模型組成。 在訓練期間使用早期停止。 具體來說,當驗證集上的F1分數沒有增加10個時刻時,我們將學習率降低2倍。一旦學習率小於預定閾值,我們停止訓練,測試每個時期後獲得的模型 在驗證集上,選擇驗證集上效能最佳的那個作為我們訓練的模型。

       我們的程式碼在Theano中實現[Bastien et al。,2012; Bergstra et al。,2010],一個公開的深度學習軟體4,基於Keras [Chollet,2015]庫5。 使用Keras中的預設設定初始化神經網路中的權重。 我們使用Adam優化器同時訓練我們深層網路中的所有層[Kingma and Ba,2014]。 批量大小設定為128.整個深度網路都在一個帶有12GB記憶體的NVIDIA GeForce GTX TITAN X GPU上進行訓練。 我們需要大約一天的時間來訓練我們的深層網路而不提前停車,而如果我們利用提前停車只需要6個小時。 在測試階段,一種蛋白質平均需要5ms。

3.3 Performance

        我們通過執行三組實驗來評估深層網路(DCRNN)的整體效能。 在第一組實驗中,我們對原始CB6133資料集執行訓練和測試。 在第二組中,我們對過濾後的CB6133資料集進行培訓,並在CB513基準測試中進行測試。 在第三組中,我們仍然對過濾的CB6133資料集進行培訓,但是在最近的CASP10和CASP11資料集上測量效能。

CB6133的培訓和測試

        我們使用CB6133訓練集訓練的模型達到了73:2_0:6%Q8精度,這定義了一種新的技術水平,比GSN獲得的先前最佳結果高出1:1%[Zhou和Troyanskaya,2014], CB6133測試裝置的溶劑可達性為76:1%。我們沒有與[Wang et al。,2016]的結果進行比較,因為[Wang et al。,2016]中使用的測試集與CB6133中定義的測試集不同,也未公開。在表1中,我們比較了我們的整體Q8效能以及各個二級結構標籤的效能與GSN先前獲得的最佳結果[Zhou和Troyanskaya,2014]。顯然,我們提出的模型可以在幾乎所有單個標籤上實現更高的精度和召回率。我們相信更好的效能不僅歸功於我們使用的神經網路的強大功能,還歸功於整合的本地和全域性環境的強大功能。具體而言,在具有高頻率的四個標籤(H,E,L和T)上,由於具有數百萬個引數的模型具有更高的表示能力,我們的模型實現了更好的效能。儘管如此,我們的模型在低頻標籤上的表現也比以前的模型更好,這很可能是因為整合了本地和全球背景,這構成了本文的核心貢獻。

Training on Filtered CB6133 and Testing on CB513

        我們還使用在過濾的CB6113資料集上訓練的模型對公共CB513基準進行了驗證,其中5534蛋白不包括與CB513中的蛋白質具有超過25%相似性的任何序列。我們的單一訓練模型達到69:4 _ 0:5%Q8精度,比DeepCNF [Wang et al。,2016]在相同的訓練和測試集上獲得的先前技術水平高1:1%,並且76:驗證集上的溶劑可及性準確度為8%,因為CB513無法獲得真實溶劑可接觸性標籤。我們還將我們的模型與其他現有方法(例如,CNF [Wang等人,2011],SSpro8 [Pollastri等人,2002]和GSN [Zhou和Troyanskaya,2014])在表2中的個別二級結構標籤上進行比較。請注意,除了此比較中其他方法(包括我們的)使用的標準序列特徵和輪廓特徵之外,CNF模型[Wang et al。,2011]使用三個額外特徵進行訓練,並且整個特徵向量在氨基酸是78維的。即使CNF使用更多功能進行訓練,我們的模型仍然可以實現更高的Q8精度。就單個標籤而言,我們的模型在高頻標籤(H,E和L)上實現略低的精度(3%至4%的差異),並且在低頻標籤(T,S和B)上的準確度顯著提高。

       為了進一步提高準確性和魯棒性,我們還通過平均10個根據包裝演算法在10個隨機取樣的訓練和驗證子集上訓練的弱模型來計算集合模型。 通過模型平均處理,Q8精度可以提高到69:7%(比整合模型的先前最佳結果高4:8%),如表2所示。此外,我們的單一模型的Q3精度是 84:0%,比先前技術水平(82:3%)高1:7%[Wang et al。,2016]。 8狀態標籤和3狀態標籤之間的對映如下:H(8狀態)對映到H(3狀態),E(8狀態)對映到E(3狀態)和所有其他 根據[Wang et al。,2016],8狀態標籤被對映到C(3狀態)。 此外,顯著性檢驗的p值“我們的模型優於其他方法”是1:4 _10?5(<0:001),使用10次不同執行的結果。

過濾CB6133培訓和CASP10和CASP11測試

        為了進一步驗證在過濾的CB6133資料集上訓練的模型的泛化能力,我們還在最近的資料集CASP10和CASP11上對其進行了評估。 我們將我們模型的Q8精度與SSpro [Magnan和Baldi,2014],RaptorX-SS8 [Wang et al。,2011]和DeepCNF進行比較。 此外,我們的模型的Q3準確度也與SSpro,SPINEX [Faraggi等人,2012],PSIPRED [Jones,1999],RaptorXSS8,JPRED [Drozdetskiy等人,2015]和DeepCNF進行了比較。 根據表3所示的結果,我們的模型的Q8準確度比CASP10高76.9%(比最好的高出5.1%)和比CASP11高73.1%(比最好的高出0.8%)。 我們的模型相對於CASP10和CASP11的Q3準確度分別為87.8%(比之前的最佳值高3.4%)和85.3%(比之前的最佳值高0.6%)。 請注意,我們在此測試中的方法的Q8精度和Q3精度是通過單個模型而不是集合模型獲得的,以進行公平比較。 

3.4 Ablation Study

        為了發現我們建議的網路成功的關鍵因素,我們通過刪除或替換我們網路中的各個元件來進行消融研究。具體來說,我們測試了沒有特徵嵌入層,多尺度CNN,堆疊BGRU或後向RNN通道的模型的效能。此外,我們還測試了一個模型,該模型不向最後兩個完全連線的層提供本地上下文,另一個模型使用雙向simpleRNN層替換BGRU層,沒有任何門結構,以確定存在時門結構的重要性遠端依賴的。根據表4中顯示的CB513資料集的結果,我們發現那些雙向GRU層是我們網路中最有效的元件,因為當我們僅在沒有後向RNN通過的情況下向前執行RNN時,效能下降到66:9%。多尺度CNN也很重要,因為沒有它們,效能會下降到68:1%。此外,與雙向simpleRNN相比,GRU層中的門結構對於處理氨基酸序列中廣泛存在的長程依賴性是必需的。與單個BGRU層相比,堆疊的BGRU層也有益於增強全域性資訊迴圈。此外,除了全域性上下文之外,直接將本地上下文饋送到完全連線的層對於良好效能也是必不可少的,尤其是對於低頻二級結構類別的預測。最後但並非最不重要的是,功能嵌入,多工學習和裝袋都可以應用於提高我們方法的準確性和穩健性。

表3:過濾CB6133的培訓和CASP10和CASP11的測試。 報告了SSpro,SPINE-X,PSIPRED,JPRED,Raptorx-SS8,DeepCNF和我們的模型(DCRNN)的Q8和Q3精度。 粗體數字表示最佳效能。

4 Conclusions

 為了將最近的深度神經網路應用於蛋白質二級結構預測,我們提出了具有多尺度CNN和堆疊雙向GRU的端到端模型,用於提取區域性和全域性上下文。 通過整合的區域性和全球背景,蛋白質二級結構預測的先前技術水平得到了改進。 通過考慮不同蛋白質性質之間的相互作用,利用多工聯合特徵學習來進一步改進效能。 由於我們提出的深度神經網路在二級結構預測上的成功,這種結合區域性和全域性背景的模型可以潛在地應用於蛋白質和計算生物學中的其他具有挑戰性的結構預測任務。

現有BGRU無法處理極長的依賴性,尤其是低頻長依賴性。 具有隱式注意機制的更強大的架構,例如神經圖靈機[Graves et al。,2014],可能適合於解決該問題並進一步改善預測效能。