代謝組學精華彙總

阿新 • • 發佈：2018-12-03

代謝組學的介紹

代謝組學那些事兒

代謝組資料處理

代謝組學資料分析的統計學方法綜述

典型機器學習演算法在代謝組學資料分析中的應用和比較

關於篩選標記物

篩選差異代謝產物通常基於OPLS-DA模型，因為它更易於進行模型解釋，所有跟分組相關的資訊都集中於第一維。篩選的標準通常是基於以下兩個指標：

Corr.Coeffs./p(corr) （Correlation Coefficient）

，是樣本得分值t和變數X間的相關係數-Corr(t, X)，代表了變數的可靠度。該值沒有固定閾值，通常設定對應的P值 < 0.05。
VIP （Variable importance in the projection），為變數對模型的重要性，描述了每一個變數對模型的總體貢獻，通常設定閾值為VIP >1。

除此之外，基於單維檢驗的P值和變化倍數（Fold change）所作的火山圖（Volcano plot）也是常用的篩選方法。

關於標記物的篩選

代謝組學活性篩選（metabolomics activity screen, MAS）

PLS-DA和OPLS-DA

可以根據V-plot篩選代謝物（本質是綜合VIP和P值 [所謂的Corr.Coeffs的P值]？），OPLS-DA的分析中還可以用S-plot篩選代謝物（橫座標是P，縱座標是P(corr)，不太理解）。這兩個圖繞暈了，有不少資料，比如有個文章（Analysing NMR Metabolomics data using OPLS-DA ）就示範了OPLS-DA及其S-plot。關於這兩個圖的文章，主要是：代謝組學資料處理中提到。

模型評估指標：(R2X, R2Y, Q2, R2, Q2)

通常，評價(O)PLS-DA 模型擬合效果使用R2X、R2Y和Q2Y這三個指標，這些指標越接近1 表示PLS-DA 模型擬合數據效果越好。其中，R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣資訊的百分比，Q2Y 則為通過交叉驗證計算得出，用以評價PLS-DA模型的預測能力，Q2Y 越大代表模型預測效果較好。

PCA分析中R2X >0.4為好；PLS-DA 和 OPLS-DA分析中，R2X 這個引數不重要了，主要是R2Y 和Q2，這兩個值>0.5 為好，越接近1越好。OPLS-DA中Q2(cum)，是指建模後模型的預測能力，以大於0.5為宜，越接近1越好，cum 表示累積的意思。另外一個Q2 是進行模型驗證，以防止隨機擬合或過擬合的一個評價引數。

另外，在介紹ropls這個包的網站上，對於實現PLS-DA、OPLS-DA有程式碼的講解，連結為：ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data

值得參考的其他文章

什麼是（O）PLS-DA？什麼是VIP？

（O）PLS-DA&VIP分析

OPLS vs PCA: Explaining differences or grouping data?

代謝組學工具

SIMCA、MetaboAnalyst（Mummichog）、PIUMet、Cytoscape、Heml（做熱圖的）、Proteowizard（格式轉換工具）等。

SIMCA操作可以借鑑下這個：SIMCA14.1 Omics Skin操作教程--藥物療法（核磁共振氫譜）。

代謝組學其他東西

在代謝組學文章投稿時，都需要列出已鑑定化合物的檢測分子量的誤差，這個通常需要自己計算，計算方法如上述例子。這裡介紹一個計算精確分子量的網。

——摘自：代謝組學分享平臺—質譜知識2.

模型建立後需要進行驗證，如置換檢驗、交叉驗證。