1. 程式人生 > 其它 >蛋白質組學資料分析基礎(1)

蛋白質組學資料分析基礎(1)

說明:此篇筆記系2016-2017年由克里克學院與康昱盛主辦的蛋白質組學網路大課堂整理而成,侵刪。該課程由上海易算生物科技有限公司CEO沈誠頻博士所授。


主要知識點
--質譜資料格式
--結果報告的質控
--DDA模式的工作原理


質譜資料格式

話說,蛋白質質譜從十幾年前就形成了固定的資料結構和格式。現在常用的搜庫格式,比如mascot的mgf,從十年前就基本固定下來。

到目前為止,質譜界的資料格式因為儀器的不同,有幾個不同的大類:

  • Thermo公司的raw檔案格式,這是目前用得最多的一種格式

  • AB公司的WIFF格式,

  • Bruker的yep/.fid

  • Waters的folder

  • Agilent的folder

Notes
MALDI MS目前應用越來越少,而且基本上不用於shotgun或者高通量研究。

這些資料格式的副檔名有一定的差別,且原始資料裡包含的內容也有所不同。具體包含哪些重要的資訊,稍後我們還會詳細講到。

結果報告的質控

資料分析,最終都是為了拿到一個可信的結果。所以,我們在講具體的分析原理之前,先得來聊聊,我們做一次高通量的蛋白質定性、定量實驗,以及搜庫鑑定及定量分析等步驟,對結果報告有哪些質控要求。

首先,我們做完實驗,在拿到下機資料的時候,大多數小夥伴們都會把資料放到各種搜庫軟體中,比如Mascot或者Thermo的Proteome Discoverer,匯入原始資料,設定一些搜庫引數,就可以得到結果了。

但是,作為一個嚴謹的實驗方案設計來說,在分析的過程中,是需要對自己的資料有一個前期質控的,這樣可以幫助大家判斷資料分析結果的可靠性。所以說,基本的質控可以幫助我們對實驗結果進行一個預判。

舉個例子。

我們開啟一個實驗的下機資料,就可以預判我們的樣品中是否發生了高分子塑料的PEG汙染,有沒有超高丰度的蛋白,或者有沒有被嚴重的鹽類汙染。這些資料都可以從原始資料的視覺化檢視中看到。

不同的質譜軟體,開啟原始資料的方式不同,但這些資訊都是可見的。另外,當兩次實驗搜尋到的蛋白數量差異比較大時,也可以從TIC圖來判斷其原因。此外還可以判斷分離的效率,以及是否出現噴霧中斷等情況。

對於蛋白鑑定的結果,或者絕大多數的搜庫演算法,都要求對結果進行FDR控制,以及unique peptide的控制等等。如果我們要發表這些資料,絕大多數的期刊雜誌也都會要求提供這些質控的資訊。

那麼,問題就來了,為什麼要做這樣的要求呢?

事實上,我們做好了質控,就能夠看到一個總的鑑定的比例。比如說像常規的定量實驗,用的最多的是iTRAQ。

舉個例子。

假設總蛋白數只有2446個,算是比較少的,而總的譜圖數是53萬張,那麼它的譜圖鑑定率在當前條件下是32%(有些質控軟體可以直接報告譜圖鑑定率,比如Scaffold),我們可以判斷當前的實驗並沒有出現重大的問題,鑑定率不高主要是因為存在高丰度蛋白,而這個後續可以進行詳細的檢視。

對於定量實驗,不管我們使用的是SILAC,iTRAQ還是Label Free,都需要對定量結果進行準確性控制(詳細內容,後續課程還會展開講解)。一般來說,我們需要用相應的軟體和統計方法來進行質控。

經過這幾步的判斷之後,可以得到一個初步的結果,比如說譜圖數量是否和之前的結果差不多,質量精度及鑑定率如何,高丰度蛋白的存在與否,是否受汙染,分離效率如何,定量是否準確,標記效率是否ok,等等,這些資訊都可以得到。這樣,我們最終可以得到一個準確可靠的蛋白質組學鑑定或定量結果用於後續的分析了。

image

那麼,如何通過檢視原始資料來進行初步質控呢?

首先,我們從原始資料出發,可以看到下圖(以Data-dependent-acquisiton資料依賴性掃描為例),是從色譜出來的一個LC分離得到的TIC圖,其中的訊號採集都是在質譜中完成的,它其實就是將色譜逐漸通過噴霧的方式進入質譜的那些訊號進行逐一的掃描,然後在其中挑選高強度的譜峰進行二級碎裂。

image

關於LC分離,以及TIC圖的詳細介紹,請參考上一節課的內容:

3. 蛋白質譜的原理及使用(4)

下圖就是色譜離子流圖的某個瞬間。橫座標是質荷比,縱座標是訊號強度。這個瞬間進入色譜的有這樣一些訊號,訊號強度最高的是質荷比為477.31的肽段,其他一些肽段也可以進行檢視。

這是我們在開啟質譜的下機資料所能看到的最直觀的結果。我們需要了解的是,這只是我們所有結果的某一個瞬間,某一個scan。這一個scan是否能夠反映整個結果的好壞是不確定的,所以後續我們需要進一步的展開。

對於質譜來說,在這一步會自動選擇其中一個比較強的峰,比如說477,它會進行一個動態的排除,這也是Data-dependent-acquisiton的一個重要引數。就是說,在多少秒之內,這麼強的一個峰如果一直反覆出現的話,那麼在後續的掃描過程中,我們不去再對它進行進行MS2碎裂了。

比如說如圖的477.31,我們質譜儀器記錄時發現前面已經對它做過二級碎裂了,那麼我們就有可能選擇另外一個比較弱的譜峰。比如552.80,將它進行二級碎裂。

image

我們再來看一眼二級譜峰,如下圖,就是對我們全長的進入質譜的肽段資訊進行打碎,得到相應的B/Y離子,如下圖,這些在後面我們會進行詳細的講解。

image

DDA模式的工作原理

下圖是Thermo質譜的原理示意圖(由Thermo工程師提供)。這是QE的原理圖,我們先在綠色的範圍內進行一次full scan的mass掃描,然後判斷當前選擇的離子訊號強度,以及在最近的幾十秒鐘之內是否對其進行掃描過。

如果沒有,那麼在緊接著的迴圈過程中,我們會對之前30秒之內(假設當前的儀器速度可以達到10個MS)沒有掃描過的最強的十個譜峰進行二級碎裂,那麼質譜就會依次將色譜推進來的噴霧中的肽段進行依次碎裂。

這就是DDA模式基本的原理。我們的資料也是根據這樣的一個過程來記錄的。

image

如果將剛才的掃描過程二維展開,可以得到下圖,看上去跟二維凝膠電泳圖很像吧?橫座標是質荷比,縱座標是保留時間,而剛才那張圖橫座標是保留時間,縱座標是強度(LC seperation圖),所以,此圖沒有質荷比資訊。

image

我們知道,在進入full scan的MS掃描時是有質荷比資訊的。所以簡單的講,上圖是將剛才的兩張圖的資訊拼接,然後將整個下機資料所有的瞬間都進行了一個拼接,由於維度的限制,因此訊號強度資訊無法再展示了。

但在此圖中用了顏色的深淺來表示保留時間,顏色深的就是相對訊號較強的肽段。而圖中的每一根小線段都代表一個肽段,小線段的長度對應著肽段的保留時間,加上橫座標質荷比的資訊,因此通過這張全域性縱覽圖,就能夠看到我們這次實驗分離的效果如何,有沒有PEG、鹽、或者其它汙染,有沒有噴霧中斷等情況發生,這些都能在這張圖中有一個大致的把握。

因此,這張圖對於我們進行資料質控非常有用。不同的軟體和儀器有不同的方法來提供這張圖。此次舉例用的圖是由Peaks軟體得來的。

我們可以在上圖中選定自己感興趣的部分,畫一個小方框,將方框中的內容進行開啟放大,就得到了下圖我們儲存資料的結果形式了。這是在Qual Browser裡開啟我們的資料看到的結果。

image

其實這就是將我們的模擬圖轉換成資料訊號,儲存在我們的Raw檔案中,或者說進一步提取成MGF檔案所用到的相關資訊。

這裡主要包含兩大類資訊:MS1和MS2的資訊,也就是full scan mass和二級碎裂的資訊。這兩類資訊的結構式是一模一樣的,都是包含質核比、強度值,以及相對訊號強度。

比如說794.03譜峰,相對訊號強度是100,也就是在這張譜圖中,這是最強的一個峰,訊號強度是3558210.8。那麼對於我們質譜的搜尋來說,一級資訊和二級資訊都是需要用到的,其中一級資訊是首要的,也就是圖中MS1部分,是後續搜庫的關鍵資訊。而二級譜圖的強度資訊一般用於定量,也就是說如果不是做SILAC或者非標記定量,這些資訊不是最重要的。

另外,第一欄的資訊準確性也是非常重要的。比如圖上紅框內,我們可以得到的資訊是,794.03和794.36強度大約差了1.5倍,後面的峰強度差了大約2倍,再看下紅框內四個資料的質荷比相差並不大,我們的質譜儀器因此會判斷這四個峰非常符合一個肽段的同位素分佈(肽段同位素分段的性狀,後續將會講解)。

回到此圖,794.03應該是一個肽段,後面三個資料是同一個肽段,這就是我們進行precursor識別的原理。有些時候質譜會識別錯誤,認為紅框上一行的793.69更可能是同位素,這個就需要我們自己進行校正。

質譜在蒐集訊號的時候,會告訴我們794.03是一個母離子或者說是肽段的譜峰,因此在後續進行MS2碎裂的時候,會挑選這樣一個譜峰,以及在質譜中我們會設定相應的視窗去打碎它。因為僅僅設定一個非常小的視窗,可能訊號不夠。我們會設計比如正負1.5個道爾頓的視窗,把這些訊號全部採集進去進行二級碎裂得到二級訊號。

現在高分辨質譜中,二級訊號也會包含同位素資訊,因此資料分析軟體需要對這些資訊進行有效的處理。

大家可以看到,這樣一個例子中,軟體記錄的是794.03,但實際我們可以通過肉眼觀察,793.69跟794.03就只相差0.33~0.34,也是一個三電荷同位素的差值(1除以0.33是3,這就是質荷比中的Z的計算原理)。兩者分別的強度271萬和355萬差別也不是非常大,我們會判斷出793.69更可能是零同位素峰(如何判斷後面會再講解)。

我們進行後續資料提取和採集的時候,也就是用了這樣的資訊來進行分析。我們記錄的一級質譜資料,以及二級質譜對應的列表,其中最重要的是m/z和intensity,在一級質譜資料中,強度並不用於蛋白鑑定的打分,但二級質譜資料中的強度值卻會被用於打分。

下篇將聊聊同位素的問題,以及如何解讀原始譜圖包含的資訊。