蛋白質組學資料分析基礎(3)
說明:此篇筆記系2016-2017年由克里克學院與康昱盛主辦的蛋白質組學網路大課堂整理而成,侵刪。該課程由上海易算生物科技有限公司CEO沈誠頻博士所授。
主要知識點:
--DIA資料非依賴性採集
--搜庫原理及技巧
--蛋白質組學相關的資料庫及使用方法
--總結
DIA資料非依賴採集
在上一篇推文,小編不止一次提到了DIA技術。那麼,到底什麼是DIA技術呢?我們來簡單地介紹一下吧。
DIA,就是指資料非依賴性採集。與DDA(資料依賴性採集)相對應。
你肯定很想知道,到底是怎麼個非依賴呢?
我們先說DDA模式,就是資料依賴性採集,它有一個質譜內部的選擇過程。當前掃描到的一堆母離子,哪一個會被選擇進入後面的二級碎裂,是根據它的資訊強度,通常是以從強到弱的順序去解析,並動態排除時間,也就是判斷這張譜圖在前一秒鐘或者前十秒鐘有沒有解析過,如果解析過,那麼就跳過,去解析沒有解析過的。這就是DDA大致的原理。
想像一下,如果我們的樣品非常複雜,一個峰一個峰去選擇的話,很可能會漏掉一些有用的資訊,造成我們譜圖解析的不完整,而且質譜不可能在重複實驗裡選擇完全一樣的離子順序,於是又會造成結果重複性不夠高的問題。於是,DIA方法被髮明出來,用於解決DDA原理的部分缺陷。
DIA模式就是在MS1掃描時,對碎裂的母離子不做任何篩選,而是傻瓜化地直接開一個非常大的視窗,讓落在這個範圍內的母離子全部進入二級碎裂。這個視窗開多大,是根據儀器和軟體的設定會有不同,比如說10或15個道爾頓。
由於DIA是一次性放了一堆母離子進來,同時碎裂,所以對於DIA來說,不是一張譜圖對應一個母離子,而是一堆譜圖對應一堆來自多個母離子的碎片離子混合物。因此,我們不可能通過對二級譜圖的解析來得到一個一個的母離子。
那我們應該如何解析呢?我們用DIA二級譜圖與平行實驗中的DDA的二級譜圖進行比對,從中抽取出相同的二級訊號,拿這些資料來進行DIA資料的定性以及相應的定量,而這個定量就是依賴於MS2的訊號強度。
imageTips:
平行的DDA實驗需要前期色譜分離做得很好,並且用高精度高通量的質譜儀來完成。
搜庫原理
我們再回到質譜資料分析的流程上。下圖是一個簡單的搜庫過程,左邊是wet lab實驗,右邊是計算機處理的過程,
蛋白樣品酶解後得到複雜的肽段混合物,經過色譜分離,進入質譜,得到一級及二級離子資訊。我們在搜庫時,輸入的是上萬張二級譜圖,以及相應的一級譜圖訊號,和母離子的精確質荷比。
那麼,我們軟體主要幹哪些事情呢?
首先我們需要準備一個數據庫(如果是de novo從頭預測蛋白序列,則不需要準備)。
比如我們拿到人類的資料庫,軟體會根據我們設定的引數進行理論酶切。比如我們告訴軟體此次試驗用的是trypsin酶切,那麼軟體也會對每條蛋白序列的trypsin酶切位點進行斷裂,與實驗中的被處理的蛋白序列保持一致。
假設,我們將人的兩萬個蛋白進行理論酶切,會生成兩百萬個理論肽,這些理論肽又會生成理論b-y離子,得到理論的譜圖。
下圖右下角就是一個理論b-y離子譜圖,可以看到,這樣一個譜圖,裡面每一個離子的訊號強度是很高的,而且是相同的。雖然有一些比較新的軟體嘗試進行理論強度的預測,但目前來講還不算非常主流。
image接下來,將理論的b-y離子譜圖和通過質譜實際得到的譜圖進行比對。
比對過程相對而言比較複雜。簡單來說,類似於給你一堆照片,然後一堆真人,讓你來判斷哪張照片是哪個人的,軟體做的就是類似的一個過程。
因此,生成理論酶切庫,以及選擇一個合適的肽段庫,就跟我們識別照片去認人是一樣的。選擇的庫越準確,篩選的速度和準確性就越高。也就是說要選擇一個合適的搜庫空間。
確定好合適的搜庫空間後,我們會拿到與質譜資料相對比較貼近的理論肽段的資料列表,這些理論肽段的原子量都是可以預測出來的,一般來說根據肽段強度從幾百到幾千都會有一個列表。
質譜的原始譜圖也會有相應的質荷比的列表,我們將這些質荷比按其電荷數還原成道爾頓,也會拿到一張表。將這兩張表進行比對,這就是我們搜庫軟體做的核心工作,這也是設定母離子的容差,即MS1的tolerance非常重要的原因。
以Orbitrap舉例,它的MS1的解析度可以達到十幾萬或者二三十萬,那麼相應的母離子的質量容差就可以是5ppm甚至更小,所以,高分辨的好處就是可以把理論候選肽段的質量範圍縮小到一個非常窄的範圍,讓匹配更加準確。
舉例來說,如果母離子是1000Da±3ppm,那麼理論候選肽就可能從上百種縮小到十種或者幾種,再去進行比對,這樣做的速度和靈敏度就會提高很多。但是如果你縮減到一個不太合理的範圍,比如你的質譜解析度是±10ppm,但是你卻用1ppm去搜,那麼很有可能正確的候選肽段都沒有能夠落到這個範圍供你篩選,所得到的都是一堆錯誤的結果。軟體是無法判斷選進來的是否包含正確的序列,它仍然會進行打分給出結果,這就會造成一定的假陽性。
image我們知道,搜庫軟體會對鑑定到的結果進行打分。那麼這個分數是怎麼來的呢?我們主要介紹一種常用的打分演算法,即基於概率的打分。
為什麼大多數搜庫軟體都要將搜庫的比對過程用概率的演算法進行匹配呢?這是因為,無論軟體或者儀器,都不是上帝,我們無從知道所得到的譜圖是不是是一個真正的肽段,或者說一定是來自於這個資料庫中的某一個肽段。就算我們用BSA標準蛋白去做,也可能有一些雜峰或者錯誤匹配。所以這不是一個絕對的準確的答案。
因此軟體需要對結果進行評價,來評估什麼樣的譜圖更可能的是一個正確的肽段匹配,這就是基於概率打分的基本原理,即,將我們的實驗測量值與候選多肽序列的理論值進行匹配。
實驗測量值只有一張譜圖,而候選多肽序列可能有10張甚至100張譜圖,只要我們把道爾頓或ppm設定的足夠小(因為氨基酸只有20種),那麼其排列組合都會落到一個差不多的範圍之內。因此理論候選多肽序列一般來說不止一種,而是會有十幾種或者二三十種。軟體會對各個結果進行比對,根據打分給出一個排列組合。
然而,得分值並不能準確地反映這個結果是不是一個正確的。所以我們會將它進行一個概率的轉換,不同的軟體用不同的演算法會進行正確概率的計算,然後設定一個隨機匹配的閾值,通常我們認為低於這個概率閾值的匹配,才是正確的匹配。
比如說p-value或者expectation-value小於0.05,或者說更嚴格的0.01,我們才認為這個結果是可靠的。也就是說現在的軟體都會去計算相應的統計值。原理類似於高考考試,100人蔘加,我們認為考試分數得第一名的,且與第二名有相當大的分數差距的人,才是我們要尋找的那個人。
Tips:
關於p值等統計學引數的含義,感興趣的小夥伴們可以參考以下的推文:
p值、E值、FDR、q值…你暈菜了嗎?
在質譜鑑定的過程中,以下圖來舉例。大家會發現高強度的b-y離子譜峰都匹配上了,那麼你覺得這張譜圖的氨基酸序列vvllatgenk是不是一個正確匹配呢?
絕大多數人都會覺得此結果不錯,應該是一個正確匹配。在Mascot軟體中,這個結果的得分是35分,很多人認為25或者30分以上就是一個準確的結果。那這個結果到底是不是對的呢?
image我們再來看下圖的另外一個結果。下面這張譜圖中,vvligdsgvgk這個肽段對於b-y離子的匹配更加豐富,看上去更加完整準確。事實上也是如此,它的得分達到了80分(Ions score),e-value是3.1X10-5!
真是不比不知道,一比嚇一跳,先前的35分可以說是一個很差的匹配了,而這個80分的結果才是一個真正準確的匹配。
從上面這個例子,大家應該能直觀地感受到,在搜庫軟體中,即便得到一個得分看上去還不錯的結果,也並不表示就是正確的匹配,而是需要進行可信度評估,才可能找出真正正確的匹配。
image對於如何計算出一個匹配是正確匹配的概率,我們使用基於probability原理的演算法。這個演算法絕大多數的搜庫軟體中都會使用,比如Mascot。那麼,它的基本思路是怎樣的呢?
分兩種情況。
首先,如果有一個標準品,並且我知道它的絕對成分,也就是說它不存在任何雜質的時候,我們可以說這樣一個匹配是確定一定及肯定正確的!但是如果說樣品的組成相對比較複雜,無法完全知道里面是什麼東西,那麼如何定義結果的準確性,就需要用到更加穩妥的引數或者實驗設計,並且要更加穩妥的去定義正確的閾值到底是多少。
有的小夥伴可能會問這樣的問題:是否可以建立一個目標蛋白的序列資料庫來提高鑑定靈敏度呢?對這個問題感興趣的小夥伴,請戳如下推文延展閱讀:
我們先來看看下圖,這是一個實際的例子。這張譜圖所有匹配的肽段的候選列表都已給出,大家可以看到1到4名分別是99,82,66,45.6分,除了99分的結果,看上去82和66分也都不錯。但事實上,除了99分那條,後面匹配到的序列其實都是不正確的。
image把剛才所說的過程換成下面這張示意圖,大家可能更容易理解。圖上紅色的點是正確的匹配,剩下藍色的點,就是我們剛才例子裡說的除了99分以外的其它打分結果。
我們應該如何來評價紅色的點就是正確的匹配結果呢?其實就是從統計分佈圖中來評判。假設紅色的點和剩下的藍色點的打分結果並沒有顯著的差異,比如絕大多數結果都在20到25分之間,那麼我們認為這裡面沒有一個結果是可信的!
假設有一個結果是25分,而其餘結果都是15分甚至更低,那麼我們會認為這個25分的匹配是一個更加可信的結果。那麼我們可不可以認為它一定是準確的呢?實事求是而言,也不一定,也有可能真正正確的序列並沒有被放進資料庫裡搜尋,如果放進去可能會出現一個明顯高於25分的結果(大多數情況下,25分是一個比較差的得分)。
這就引出另一個問題,即資料庫的選擇!其實,過大或者過小的資料庫都不是合理的選擇。資料庫過大,搜庫時間很大,複雜度變大,得到隨機錯誤匹配的概率變大;資料庫過小,容易遺漏真正的目標序列,得不到正確的結果。
image隨著生物資訊學的反展,對於結果的過濾已經引入了更多的演算法,比如FDR演算法等等。具體演算法思路我們在後續課程中還會展開講解。
蛋白質資料庫
介紹完搜庫原理,我們接下來介紹一些蛋白質資料庫的知識。先來個總表,大家感受一下:
image1:序列資料庫
目前來說,用的最多的是UniProt KB,該資料庫來自歐洲生物資訊學中心。其次是美國的NCBI Genebank。這兩個資料庫蒐集了全世界已公佈的所有物種的蛋白質序列。如果實在搜不到結果,還可以用EST標籤或者自己去測序,只是自己測序無法保證蛋白的完整程度。
2:註釋資料庫
鑑定到蛋白只是萬里長征的第一步,後面我們還需要對蛋白進行註釋,比如我們最常用到的Gene Ontology。人類蛋白資料庫已經註釋得很完整,而有的物種註釋不夠完整或者說註釋得比較差的情況下,則需要通過同源性序列來間接註釋。
3:蛋白相互作用資料庫
當需要進一步研究蛋白的功能及作用機理時,常常需要了解蛋白-蛋白或蛋白-小分子相互作用,有很多收集蛋白相互作用的資料庫可以供我們搜尋,或者繪製互作網路。
4:生物通路分析資料庫
比如大名鼎鼎的KEGG等工具,還有一些有偏好性的資料庫,比如專門針對代謝通路的BioCyc,或者針對人類(及大鼠和小鼠)物種的IPA等。
5:蛋白質組學資料庫
當我們完成了從搜庫、註釋,到機理分析的一系列功能,並完成了生物學實驗驗證,打算髮表文章了。有一些蛋白質組學領域的雜誌,比如JPR、MCP等,會要求我們將資料結構上傳到指定的資料庫中,用於共享或是同行的質量審查。目前來說用的最多的是ProteomeXchange,ProteomeDB,和iProx這三個資料庫。iprox是中國國家蛋白質中心建立的。另外一些蛋白質組學相關的資料庫,以及發表在CNS上的大規模資料,有一些組織也會將其蒐集起來,做人的human protein atlas,比如GeneCards就是整合得很好的綜合性資料庫,我們可以在其中查到別人做過的詳細結果資料。
這麼多種類繁雜的資料庫,相互之間的資料資訊有怎樣的聯絡呢?下面這張圖告訴你答案:
image可以這樣說,所有的資訊,最初都是從基因組出發的。基因組的資料是來自INSDC(全世界最大的基因組合作機構)釋出的各個物種的基因資料,其中NCBI會將其蒐集到GenBank裡,EBI蒐集到EnsemblGenomes裡。GenBank中測序完整且註釋完整的資料會放到RefSeq中。
KEGG在生物通路中用的很多,其實它也是一個蒐集各類基因和小分子的資料庫,它的pathway資料是平常我們用得最多的,其相對來說是比較權威的。其實一些常用的資料庫,大家也可以從圖裡瞭解它們的資料來源,以及相互的關聯。
當然,我們做蛋白鑑定的時候,最關心的還是蛋白序列資料庫。全球兩大知名的序列資料庫,一個是NCBI,一個是EBI。先介紹下NCBI資料庫。在NCBI裡可以搜尋到各種各樣的資訊,各種和生化以及組學相關的資料庫都可以整合到NCBI中。NCBI支援的資料格式包括NCBI GI、GenBank ID、RefSeq ID,以及Entrez ID等。
NCBI的NCBInr非冗餘資料庫是搜庫時常常會用到的,但它的問題在於NCBI內部資料的一致性比較差,它蒐集了各種來源的資料,格式都不一樣,後續會發現,蒐集到NCBInr之後,同一個基因編碼的蛋白會搜到好多個版本。
2016年,NCBI將gi號取消了,換成了GenBank ID,此過程十分艱難,很多軟體都要對其進行相應的轉換,也給使用者帶來了很多不便。因此個人建議,還是先在UniProt庫裡搜尋。如果從UniProt裡實在找不到的序列資訊,再去NCBInr裡搜尋。
Tips:
雖然UniProt主要蒐集的是蛋白資訊,但是它與相當多的註釋資料庫,如GO,KEGG等等,都有交叉合作。因此UniProt中的註釋資訊是相當完整的。
但是NCBI的優勢也是非常明顯的,就是它的資料資訊非常全面!從下圖可以看出,在過去的7年時間裡,NCBI包含的核酸序列、蛋白序列和基因資訊均有爆發式的增長。這歸功於近年來基因組和轉錄組技術的發展。其中很多是中國人做出的貢獻。
image剛剛我們也提到了NCBI的問題,那麼它的缺點對我們搜庫有什麼影響呢?
舉個例子。
比如有一次我們做某種橘子的蛋白鑑定,在NCBI中搜索,如果用NCBInr(非冗餘)來搜,你會得到88138條蛋白序列,但其中有21%的序列是完全一樣的,原因就是其包含的資料來源太多了!如果我們用GenBank,就會發現只有15%的冗餘(GenBank也不是單一來源的資料庫,它自己也有好幾個註釋序列的來源)。
而當我們選用UniProt的話,發現結果裡沒有冗餘!這就是UniProt的好處 ,幫我們進行了前期蛋白資料庫的過濾和準備。這就是我們推薦優先使用UniProt的原因。
事實上,現在用UniProt的人越來越多了。它是目前世界上最大最完整的蛋白資料庫,其來源非常多,比如有GenBank,EMBL-Bank,DDBJ等的coding sequences都會成為其收集來源。
它的收集一樣會存在如同NCBI的問題,會有冗餘或者說資料來源太過於複雜,導致蛋白序列有各種的版本。所有UniProtKB中有一個最大的版本TrEMBL(它蒐集的資訊來源也很雜,所有蛋白數有6400多萬種),不建議大家在用序列資料庫的時候直接用TrEMBL搜庫,因為沒有去過冗餘。另外一個子庫Proteomes,包含了比較全的物種(目前有5000多種)。如果有reference參考序列的蛋白質組,這些物種的冗餘度是非常低的,用於我們蛋白質組學的研究就非常適合。
Tips:
Swiss-Prot是經過人工註釋和review的資料庫,它只有55萬種蛋白。但是除了人類和小鼠蛋白質資料庫因為研究得很廣泛比較全面以外,剩下的各個物種都不是很全面。因此建議除了人類和小鼠外,別的物種不要直接採用swiss-prot搜庫。
如果從NCBI或者UniProt裡都沒搜尋到你想要的蛋白質序列,那麼可以嘗試使用這些物種的EST。它們雖然不太完整,但是會比較豐富,也就是說研究物件還沒用經過大規模的基因組測序,來自於小規模機構或個人提供的RNA sequence序列資訊。先對其按照coding的序列格式進行氨基酸轉換後搜庫。也就是說當我們只有mRNA或者coding sequence,但沒有進行DNA sequence的序列進行拼接的話,那麼只能用這樣的資料庫。
image說了這麼多,我們來小結一下資料庫的選擇:UniProt Proteomes是第一優先順序,除了人和小鼠可以用Swiss-Prot更好以外,其餘所有物種都優先用Proteomes,第二優先順序GenBank/NCBInr,用於少數UniProt沒有收集到的物種。
既然UniProt這麼好用,我們再來介紹一下它是如何使用。
image首先,我們得確認一下所要搜尋的物種的拉丁文名稱,比如說豬,因為是很常見的物種,所以在其拉丁文名後,包含了其英文名pig。但你如果用sus scrofa來搜尋會得到最準確的結果,否則會得到大量的候選。
image搜尋完畢後。我們可以得到具體資料,比如蛋白數量26000種,編碼基因21000種,這個時候我們可以有個預判:豬的蛋白質組相對來說是比較完整的。在該搜尋頁面中,有download選項,點選後可以進入相應的下載介面,下載到本地,匯入搜庫軟體中,就可以使用了。
Tips:
目前在UniProt Proteomes資料庫裡,有reference proteome(資料庫裡會用R標籤來表示)的物種目前有5862種。另外51999種物種有proteome但是沒有reference,說明其資料相對來說還不夠全面。
總結
此次分享了蛋白質組學網路大課堂前面四節重要的綜述&基礎課,涵蓋了實驗、儀器及資料分析等各個方面,希望對大家入門有所幫助。
後面課程的修飾蛋白組、靶向蛋白、代謝組學、多肽組及多組學等內容沒有總結筆記,自己有時間了再給他填填坑。
作者:Bioinfarmer
連結:https://www.jianshu.com/p/492bbb5a90d5
來源:簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。