代謝組學精華彙總
代謝組學的介紹
代謝組資料處理
關於篩選標記物
篩選差異代謝產物通常基於OPLS-DA模型,因為它更易於進行模型解釋,所有跟分組相關的資訊都集中於第一維。篩選的標準通常是基於以下兩個指標:
-
Corr.Coeffs./p(corr) (Correlation Coefficient)
-
VIP (Variable importance in the projection),為變數對模型的重要性,描述了每一個變數對模型的總體貢獻,通常設定閾值為VIP >1。
除此之外,基於單維檢驗的P值和變化倍數(Fold change)所作的火山圖(Volcano plot)也是常用的篩選方法。
代謝組學活性篩選(metabolomics activity screen, MAS)
PLS-DA和OPLS-DA
可以根據V-plot篩選代謝物(本質是綜合VIP和P值 [所謂的Corr.Coeffs的P值]?),OPLS-DA的分析中還可以用S-plot篩選代謝物(橫座標是P,縱座標是P(corr),不太理解)。這兩個圖繞暈了,有不少資料,比如有個文章(Analysing NMR Metabolomics data using OPLS-DA )就示範了OPLS-DA及其S-plot。關於這兩個圖的文章,主要是:代謝組學資料處理 中提到。
模型評估指標:(R2X, R2Y, Q2, R2, Q2)
通常,評價(O)PLS-DA 模型擬合效果使用R2X、R2Y和Q2Y這三個指標,這些指標越接近1 表示PLS-DA 模型擬合數據效果越好。其中,R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣資訊的百分比,Q2Y 則為通過交叉驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y 越大代表模型預測效果較好。
PCA分析中R2X >0.4為好;PLS-DA 和 OPLS-DA分析中,R2X 這個引數不重要了,主要是R2Y 和Q2,這兩個值>0.5 為好,越接近1越好。OPLS-DA中Q2(cum),是指建模後模型的預測能力,以大於0.5為宜,越接近1越好,cum 表示累積的意思。另外一個Q2 是進行模型驗證,以防止隨機擬合或過擬合的一個評價引數。
另外,在介紹ropls這個包的網站上,對於實現PLS-DA、OPLS-DA有程式碼的講解,連結為:ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data
值得參考的其他文章
OPLS vs PCA: Explaining differences or grouping data?
代謝組學工具
SIMCA、MetaboAnalyst(Mummichog)、PIUMet、Cytoscape、Heml(做熱圖的)、Proteowizard(格式轉換工具)等。
SIMCA操作可以借鑑下這個:SIMCA14.1 Omics Skin操作教程--藥物療法(核磁共振氫譜)。
代謝組學其他東西
在代謝組學文章投稿時,都需要列出已鑑定化合物的檢測分子量的誤差,這個通常需要自己計算,計算方法如上述例子。這裡介紹一個計算精確分子量的網。
——摘自:代謝組學分享平臺—質譜知識2.
模型建立後需要進行驗證,如置換檢驗、交叉驗證。
如果是兩組比較,也可以通過OPLS-DA的S-plot進行標記物篩選。選擇分佈在S-plot兩端的變數作為標記物,同時可以參看得分圖(Score plot)來觀察變數在不同組別的相對含量高低(即處於S-plot右上方的變數在得分圖中處於y軸右側的組別中含量較高,反之亦然)。
多組學
O2PLS技術值得研究下
刷爆朋友圈的多組學聯合,輕鬆搞定分子調控機制-表型間的關聯!
答疑
代謝組學問答四十八式,準備好接招了嗎?(三) (有提到OPLS-DA的評估引數問題)
不侷限於代謝
一些報道