代謝組學資料分析的統計學方法綜述

阿新 • • 發佈：2018-12-03

轉自：https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA

謝組學研究產生大量的資料，這些資料具有高維、小樣本、高噪聲等複雜特徵。如何從複雜的代謝組學資料中提取出有價值的資訊，篩選出潛在的生物標誌物成為近年來代謝組學研究的熱點和難點。據此，本文針對目前代謝組學資料分析中的常用統計學方法及其研究進展進行介紹。

代謝組學資料的特點

代謝組學是系統生物學領域中繼基因組學和蛋白質組學之後新近發展起來的一門學科，它通過檢測生物體在受到外源刺激或基因修飾後其體內代謝物質的變化來探索整個生物體的代謝機制。

其研究物件為生物體內所有內源性小分子代謝物（分子量＜1000Da) 。

研究手段為高通量檢測技術和資料處理方法，最終目標是資料建模和生物標誌物的篩選。

生物樣品如血漿、尿液、組織等，經過GC/MS、NMR、LC/MS 等高通量儀器檢測後，得到大量的圖譜資料，使用XCM等軟體對這些圖譜資料進行轉換，獲得用於統計分析的標準格式的資料。

歸納起來，代謝組學資料具有以下特點：

高噪聲：生物體內含有大量維持自身正常功能的內源性小分子，具有特定研究意義的生物標誌物只是其中很少一部分，絕大部分代謝物和研究目的無關。
高維、小樣本：代謝物的數目遠大於樣品個數，不適合使用傳統的統計學方法進行分析，多變數分析容易出現過擬合和維數災難問題。
高變異性：一是不同代謝物質的理化性質差異巨大，其濃度含量動態範圍寬達7～9個數量級，二是生物個體間存在各種來源的變異，如年齡、性別都可能影響代謝產物的變化，三是儀器測量受各種因素影響，容易出現隨機測量誤差和系統誤差，這使得識別有重要作用的生物標誌物可能極其困難。
相互作用關係複雜：各種代謝物質可能不僅具有簡單的相加效應，而且可能具有互動作用，從而增加了識別這些具有複雜關係的生物標誌物的難度。
相關性和冗餘性：各種代謝物並非獨立存在，而是相互之間具有不同程度的相關性，同時由於碎片、加合物和同位素的存在使得資料結構存在很大的冗餘性，這就需要採用合理的統計分析策略來揭示隱藏其中的複雜資料關係。
分佈的不規則和稀疏性：代謝組學資料分佈不規則，而且資料具有稀疏性（即有很多值為零) ，因此，傳統的一些線性和引數分析方法此時可能失效。

資料的預處理

代謝組學資料分析的目的是希望從中挖掘出生物相關資訊，然而，代謝組學資料的變異來源很多，不僅包括生物變異，還包括環境影響和操作性誤差等方面。

處理手段主要包括歸一化（standardization) 、標準化（normalization) ，即中心化（centering) 和尺度化（scaling)，以及資料轉換（transformation)。

歸一化是針對樣品的操作，由於生物個體間較大的代謝物濃度差異或樣品採集過程中的差異（如取不同時間的尿樣) ，為了消除或減輕這種不均一性，一般使用代謝物的相對濃度，即每個代謝物除以樣品的總濃度，以此來校正個體差異或其他因素對代謝物絕對濃度的影響。

標準化是對不同樣品代謝物的操作，即統計學意義上的變數標準化。標準化的目的是消除不同代謝物濃度數量級的差別，但同時也可能會過分誇大低濃度組分的重要性，即低濃度代謝物的變異係數可能更大。

資料轉換是指對資料進行非線性變換，如log轉換和power轉換等。資料轉換的目的是將一些偏態分佈的資料轉換成對稱分佈的資料，並消除異方差性的影響，以滿足一些線性分析技術的要求。不同的預處理方法會對統計分析結果產生不同的影響（見表1) ，在實際應用中，我們應該根據具體的研究目的﹑資料型別以及要選用的統計分析方法綜合考慮，選擇適當的預處理方式。例如，Robert A. van den Berg等（2006) 通過實際代謝組學資料的分析發現，選用不同預處理方法在很大程度上影響著主成分分析（PCA) 的結果，自動尺度化（auto scaling)和全距尺度化（range scaling) 在對代謝組學資料進行探索性分析時表現更優，其PCA 分析後的結果在生物學上能夠得到更合理的解釋。

單變數分析方法

單變數分析方法簡便﹑直觀和容易理解，在代謝組學研究中通常用來快速考察各個代謝物在不同類別之間的差異。

代謝組學資料在一般情況下難以滿足引數檢驗的條件，使用較多的是非引數檢驗的方法，如Wilcoxon 秩和檢驗或Kruskal-Wallis 檢驗，t’檢驗也是一種比較好的統計檢驗方法。

由於代謝組學資料具有高維的特點，所以在進行單變數分析時，會面臨多重假設檢驗的問題。如果我們不對每次假設檢驗的檢驗水準α進行校正，則總體犯一類錯誤的概率會明顯增加。

一種解決方法是採用Bonferion校正，即用原檢驗水準除以假設檢驗的次數m作為每次假設檢驗新的檢驗水準（α/m) 。由於Bonferion校正的方法過於保守，會明顯降低檢驗效能，所以在實際中更為流行的一種做法是使用陽性發現錯誤率（false discovery rate，FDR) 。

這種方法可用於估計多重假設檢驗的陽性結果中，可能包含多少假陽性結果。FDR 方法不僅能夠將假陽性的比例控制在規定的範圍內，而且較之傳統的方法在檢驗效能上也得到顯著的提高。

實際中也可以使用區域性FDR（用fdr表示) ，其定義為某一次檢驗差異顯著時，其結果為假陽性的概率。區域性FDR 的使用，使得我們能夠估計出任意變數為假陽性的概率，通常情況下有FDR≤fdr。

除了進行傳統的單變數假設檢驗分析，代謝組學分析中通常也計算代謝物濃度在兩組間的改變倍數值（fold change) ，如計算某個代謝物濃度在兩組中的均值之比，判斷該代謝物在兩組之間的高低表達。計算ROC 曲線下面積（AUC) 也是一種經常使用的方法。

多變數分析

代謝組學產生的是高維的資料，單變數分析不能揭示變數間複雜的相互作用關係，因此多變數統計分析在代謝組學資料分析中具有重要的作用。

總體來說，代謝組學資料多變數統計分析方法大致可以分為兩類：

一類為非監督的學習方法，即在不給定樣本標籤的情況下對訓練樣本進行學習，如PCA、非線性對映（NLM) 等；
另一類為有監督的學習方法，即在給定樣本標籤的情況下對訓練樣本進行學習，如偏最小二乘判別分析（PLS-DA) 、基於正交訊號校正的偏最小二乘判別分析（OPLS-DA) 、人工神經網路（ANN) 、支援向量機（SVM) 等。其中，PCA、PLS-DA和OPLS-DA是目前代謝組學領域中使用最為普遍的多變數統計分析方法。

PCA

PCA是從原始變數之間的相互關係入手，根據變異最大化的原則將其線性變換到幾個獨立的綜合指標上（即主成分) ，取2～3個主成分作圖，直觀地描述不同組別之間的代謝模式差別和聚類結果，並通過載荷圖尋找對組間分類有貢獻的原始變數作為生物標誌物。通常情況下，由於代謝組學資料具有高維、小樣本的特性，同時有噪聲變數的干擾，PCA的分類結果往往不夠理想。

儘管如此，PCA作為代謝組學資料的預分析和質量控制步驟，通常用於觀察是否具有組間分類趨勢和資料離群點。在組間分類趨勢明顯時，說明其中一定有能夠分類的標誌物。

PCA還可以用於分析質控樣品是否聚集在一起，如果很分散或具有一定的變化趨勢，則說明檢測質量存在一定的問題。Zhang Zhiyu 等（2010) 通過PCA 成功區分了骨肉瘤患者和正常人，並發現良性骨腫瘤患者中有兩例是異常值。Kishore K. Pasikanti 等（2009) 利用PCA 對尿液膀胱癌代謝組學資料進行分析後觀察到質控樣品在PCA得分圖上緊密聚集，從而驗證了儀器檢測的穩定性和代謝組學資料的可靠性。

PLS-DA

PLS-DA 是目前代謝組學資料分析中最常使用的一種分類方法，它在降維的同時結合了迴歸模型，並利用一定的判別閾值對迴歸結果進行判別分析。ZhangTao 等（2013) 運用PLS-DA技術分析尿液卵巢癌代謝組學資料，成功將卵巢癌患者和良性卵巢腫瘤患者以及子宮肌瘤患者相互鑑別，並鑑定出組氨酸、色氨酸、核苷酸等多種具有判別能力的卵巢癌生物標誌物。

PLS的思想是，通過最大化自變數資料和應變數資料集之間的協方差來構建正交得分向量（潛變數或主成分) ，從而擬合自變數資料和應變數資料之間的線性關係。

PLS的降維方法與PCA 的不同之處在於PLS 既分解自變數X 矩陣也分解應變數Y 矩陣，並在分解時利用其協方差資訊，從而使降維效果較PCA 能夠更高效地提取組間變異資訊。

當因變數Y為二分類情況下，通常一類編碼為1，另一類編碼為0或-1；當因變數Y為多分類時，則需將其化為啞變數。通常，評價PLS-DA 模型擬合效果使用R2X、R2Y和Q2Y這三個指標，這些指標越接近1 表示PLS-DA 模型擬合數據效果越好。其中，R2X 和R2Y 分別表示PLSDA分類模型所能夠解釋X 和Y 矩陣資訊的百分比，Q2Y 則為通過交叉驗證計算得出，用以評價PLS-DA模型的預測能力，Q2Y 越大代表模型預測效果較好。

實際中，PLS-DA 得分圖常用來直觀地展示模型的分類效果，圖中兩組樣品分離程度越大，說明分類效果越顯著。代謝組學資料分析中另一種常用的方法是OPLS-DA，它是PLS-DA 的擴充套件，即首先使用正交訊號校正技術，將X 矩陣資訊分解成與Y 相關和不相關的兩類資訊，然後過濾掉與分類無關的資訊，相關的資訊主要集中在第一個預測成分。Johan Trygg 等認為該方法可以在不降低模型預測能力的前提下，有效減少模型的複雜性和增強模型的解釋能力。

與PLSDA模型相同，可以用R2X、R2Y、Q2Y 和OPLS-DA 得分圖來評價模型的分類效果。Carolyn M. Slupsky 等（2010) 使用OPLS-DA 發現卵巢癌患者、乳腺癌患者、正常人這三者之間的尿液代謝輪廓顯著不同，從而推斷尿液代謝組學可能為癌症的特異性診斷提供重要依據。

由於代謝組學資料具有高維、小樣本的特性，使用有監督學習方法進行分析時很容易產生過擬合的現象。

為此，需要使用置換檢驗考察PLS-DA 在無差異情況下的建模效果。該方法在固定X 矩陣的前提下，隨機置換Y分類標籤n次，每次隨機置換後建立新的PLS-DA 模型，並計算相應的R2Y 和Q2Y；然後，與真實標籤模型得到的結果進行比較，用圖形直觀表達是否有過擬合現象。

由於樣本量的不足，通常採用上述的交叉驗證和置換檢驗方法作為模型驗證方法。而實際中，在樣本量允許的情況下，最為有效的模型驗證方法即將整個資料集嚴格按照時間順序劃分為內部訓練資料和外部測試資料兩部分，利用內部訓練資料建立模型，再對外部測試資料進行預測，客觀地評價模型的有效性和適用性。

生物標誌物的篩選

代謝組學分析的最終目標是希望從中篩選出潛在的生物相關標誌物，從而探索其中的生物代謝機制，因此需要藉助一定的特徵篩選方法進行變數篩選。

對於高維代謝組學資料的特徵篩選，研究的目的是從中找出對樣本分類能力最強或較強的一個或若干個變數。特徵篩選方法主要分為三類：過濾法、封裝法和嵌入法。

過濾法主要是採用單變數篩選方法對變數進行篩選，優點是簡單而快捷，能夠快速的降維，如t’檢驗、Wilcoxon秩和檢驗、SAM等方法。
封裝法是一種多變數特徵篩選策略，通常是以判別模型分類準確性作為優化函式的前向選擇、後向選擇和浮動搜尋特徵變數的演算法，它通常是按照“節省原則”進行特徵篩選，最終模型可能僅保留其中很少部分的重要變數，如遺傳演算法等。
嵌入法的基本思想是將變數選擇與分類模型的建立融合在一起，變數的重要性評價依靠特定分類模型的演算法實現，在建立模型的同時，可以給出各變數重要性的得分值，如PLS-DA方法的VIP統計量等。

為了更加客觀、全面地評價每個變數的重要性，代謝組學研究中一般採取將上述方法結合起來的方式進行變數篩選。比較常見的一種策略是先進行單變數分析，再結合多變數模型中變數重要性評分作為篩選標準，如挑選fdr≤0.05 和VIP＞1.5的變數作為潛在生物標誌物。

用篩選的潛在生物標誌物對外部測試資料集進行預測，評價其預測效果。最後，可以通過研究生物標誌物的生物學功能和代謝通路，分析不同生物標誌物之間的相互作用和關係，從而為探索生物代謝機制提供重要線索和資訊。

Yang Jinglei 等（2013) 即在代謝組學分析中使用fdr≤0.2和VIP＞1.5的雙重標準來篩選精神分裂症的特異生物標誌物，所篩選出的差異代謝物其AUC 在訓練資料中達94. 5%，外部測試資料中達0. 895。

代謝組學資料分析的統計學方法綜述

代謝組學資料分析的統計學方法綜述

代謝組學精華彙總

七週速學資料分析（資料視覺化篇）

七週速學資料分析（資料庫篇）

七週速學資料分析（業務知識篇）

做一個最好的自己，不盲目學資料分析

我看你骨髓清奇，是個學資料分析的奇才。

如何學爬蟲，如何學資料分析，如何學人工智慧並轉到這些行業？

學資料分析需要學的知識詳解（一）

學資料分析需要學的知識詳解（二）

學資料分析需要知道的知識（二）

如何明確資料分析的方法（一）

如何明確資料分析的方法（二）

心得丨一文告訴你想學資料分析該讀什麼書、從哪本讀起

學資料分析需要注意什麼技能呢？

R 語言之資料分析高階方法「GLM 廣義線性模型」

小白學資料分析----->學習註冊轉化率

小白學資料分析----->DNU/DAU

為什麼要用到陣列及遍歷陣列和數組裡資料的查詢方法

想學資料分析（人工智慧）需要學哪些課程？

代謝組學資料分析的統計學方法綜述

相關推薦