1. 程式人生 > 其它 >【翻譯】全基因組關聯分析教程:質量控制和統計分析【第三部分:種群分層控制和關聯統計計算】

【翻譯】全基因組關聯分析教程:質量控制和統計分析【第三部分:種群分層控制和關聯統計計算】

原文標題:A tutorial on conducting genome-wide association studies: Quality control and statistical analysis
原文連結:https://pubmed.ncbi.nlm.nih.gov/29484742/

4 | 控制種群分層

GWAS中系統偏差的一個重要來源是種群分層,如附錄中所解釋的。已經表明, 即使是單一種群個體中,也可能存在細微程度的分層(Abdellaoui 等人,2013 年;Francioli 等人, 2014)。因此,測試和控制種群分層的存在是不可或缺的質量控制步驟。

有多種方法可以校正種群分層(Price等人,2010年)。在本教程中,我們將說明PLINK中包含的一種方法:多維縮放(multimensional scaling, MDS)法。該方法計算樣本中任何一對個體之間共享的等位基因的全基因組平均比例,以生成每個個體遺傳變異的定量指數(成分,components)。可以繪製單個成分的分數以探索在遺傳意義上是否存在比預期更相似的個體組。例如,在一項包括來自亞洲和歐洲的受試者的基因研究中,MDS分析將顯示亞洲人彼此之間的基因比亞洲人與歐洲人之間更相似。為了調查生成的成分分數偏離樣本目標群體的個體,繪製被調查樣本的分數和已知種族結構的群體(例如,HapMap/1KG資料)是有幫助的:這一步稱為錨定(anchoring)。這使得研究人員能夠獲得有關其樣本的種族資訊並確定可能的種族異常值(ethnic outliers)。在

https://www.github.com/MareesAT/GWA_tutorial/ 下的2_Population_stratification.zip已經提供了一個指令碼,用來在您自己的以1KG專案資料( http://www.1000genomes.org/ )為錨定的資料上進行MDS分析。

圖3說明了此類分析的一個示例。基於MDS分析的異常值個體應從進一步分析中去除。排除這些個體之後,必須進行新的MDS分析,其主要成分需要用作關聯測試中的協變數(covariates),來校正人口中任何剩餘的種群分層。需要包含多少成分取決於種群結果和樣本大小,但精神遺傳學界普遍接受最多包含10個成分。

圖3 1KG與HapMap資料的CEU的多維縮放(MDS)圖(在此示例中,它可以被視為是您的“自己的”資料,因為它在線上教程中被使用了)。左上角的黑色十字(+= “OWN”)代表HapMap樣本中個體的前兩個MDS分量(彩色符號代表1KG資料(其中綠色圓圈=歐洲人;藍色方框=非洲人;紫色叉號=Ad混合的美國人;紅色三角=亞洲人))。代表歐洲樣本的MDS成分位於左上角,非洲樣本位於右上方,Ad混合的美國樣本位於虛線的交點附近,亞洲樣本的成分位於左下部分。

5 | 二元和數量性狀關聯的統計檢驗

經過質量控制和MDS成分的計算之後,資料已經準備好用於後續關聯測試。根據感興趣的性狀或疾病的預期遺傳模型和所研究的表型性狀的性質,可以選擇適當的統計檢驗。在隨附的教程中,我們提供了適用於二元性狀(例如,酒精依賴患者與健康對照)或數量性狀(例如,每週消耗的酒精飲料數量)的各種關聯型別的指令碼。

PLINK提供了一個自由度(1 df)等位基因測試,其中性狀值或二元性狀的對數比值作為風險等位基因(次要等位基因[a] vs 主要等位基因[A])數量的函式線性增加或減少。此外,還可以進行非加性檢驗,例如基因型關聯測試(2 df: aa vs. Aa vs AA)、顯性基因作用測試(1 df: [aa & Aa] vs AA)以及隱性基因作用測試(1 df: aa vs [Aa & AA])。然而,非加性檢驗並未得到廣泛應用,因為在實踐中檢測非加性的統計能力很低(Lettre等人,2007年;McCarthy等人,2008年)。通過在PLINK中使用基於R的“外掛(plug-in)”函式,可以執行更復雜的分析(例如,Cox迴歸分析和固化模型)(Stringer等人,2016年)。

下面介紹的關聯分析的示例指令碼可以在 https://github.com/MareesAT/GWA_tutorial/3_Association_GWAS.zip中找到。

5.1 | 二元結果度量

在PLINK中,SNP與二元結果之間的關聯(1代表未受影響,2代表受影響;0和-9代表確實;前面的表示是PLINK預設的,您使用的時候可以根據需要修改)可以使用選項--assoc或者--logistic進行檢驗。PLINK中--assoc選項執行的\(X^{2}\)關聯測試是不包含協變數的。使用--logistic選項將執行包含協變數的邏輯迴歸分析。--logistic選項比--assoc選項更靈活,但代價是計算時間的增加。

5.2 | 數量結果度量

在PLINK中,SNP和數量結果之間的關聯可以通過選項--assoc--linear進行檢驗。當PLINK檢測到數量結果度量(即,除1,2,0或缺失值以外的值)時,--assoc選項將通過執行常用的Student's t檢驗的漸進版本來比較兩個均值。這個選項不允許使用協變數。PLINK中的--linear選項以每個單獨的SNP作為預測變數執行線性迴歸分析。與--logistic選項類似,--linear選項允許使用協變數,並且比--assoc選項稍慢。

5.3 | 多次測試(test, 檢驗?)的修正

現代基因分型晶片目前可以對400萬個標記進行基因分型,這會產生大量的測試,因此產生了相當大的多重測試負擔。SNP imputation可能會進一步增加測試關聯的數量。各種模擬表明,廣泛用於歐洲人群研究的全基因組顯著性閾值\(5\times10^{-8}\)充分控制了整個基因組中獨立SNP的數量,而不管研究的實際SNP密度(Dudbridge等人,2008年)。在測試非洲種群時,由於這些個體之間的遺傳多樣性更大,因此需要更嚴格的閾值(可能接近\(1.0\times10^{-8}\);Hoggart等人,2008年)。

確定全基因組顯著性的三種廣泛應用的替代方法是使用Bonferroni校正、Benjamini-Hochberg錯誤發現率(FDR,false discovery rate)和置換(permutation)測試。Bonferroni校正旨在控制出現至少一個假陽性結果的概率,使用公式\(0.05/n\)計算調整後的p值閾值,其中\(n\)是測試的SNP數量。然而,如前所述,由於連鎖不平衡(Linkage Disequilibrium, LD),許多SNP是相關的,因此根據定義不是獨立的。因此這種方法往往過於保守,導致假陰性結果的比例增加。

在假設SNP是獨立的狀態下,FDR控制了其值低於固定閾值的所有訊號中誤報的預期比例(Benjamini和Hochberg,1995)。這種方法不如Bonferroni校正保守。應該注意的是,控制FDR並不意味著任何統計顯著性的概念;它只是一種將誤報的預期比例降至最低的方法,例如用於後續分析。此外,這種方法對於SNP有其自身的侷限性,因為p值不是獨立的,而這是FDR方法假設的前提條件(Benjamini和Hochberg,1995年)。

最後,置換方法可用於處理多重測試負擔。為了計算基於排列的p值,結果測量標籤被隨機排列多次(例如,1,000-1,000,000次),這有效地消除了結果測量和基因型之間的任何真正關聯。對於所有排列的資料集,然後執行統計測試。這提供了在無關聯的零假設下檢驗統計量和p值的經驗分佈。隨後將從觀測資料獲得的原始檢驗統計量或p值與p值的經驗分佈進行比較,以確定經驗調整的p值。要使用這種方法,可以組合兩個PLINK選項--assoc--mperm以生成兩個p值:EMP1,經驗p值(未校正)和EMP2,為多次測試校正的經驗p值。這個過程是計算密集型的,特別是如果需要很多排列時,這是準確計算非常小的p值所必須的(North等人,2003年)。