1. 程式人生 > 實用技巧 >基於GCTA的gene-based關聯分析研究

基於GCTA的gene-based關聯分析研究

今天博主博士答辯完畢啦,超開心的,撒花~

雖然很疲憊(昨晚太晚睡了==),但想到今天跟師妹說給她gene-based關聯分析的方法。

於是,決定還是整理好了再休息休息。

好,進入主題。

之前的推文我曾經寫過使用VEGAS2(Versatile Gene-based Association Study)進行gene based的關聯分析研究

但用過的人就知道,VEGAS2有個很明顯的缺點,跑起來很佔CPU,因此今天再重新推薦另一個工具GCTA,也是可以計算gene-based關聯分析的。

1、下載、安裝

首先,下載GCTA:

wget https://cnsgenomics.com/software/gcta/bin/gcta_1.92.4beta2.zip

解壓:

unzip gcta_1.92.4beta2.zip
cd gcta_1.92.4beta2

2、準備輸入檔案

準備summary_statistics的輸入檔案GWASp,輸入檔案GWASp包括兩列,第一列是SNP的ID,第二列是SNP的P值(這裡顯示的是P-value)。

準備基因型檔案1000G_EUR,基因型檔案可以是公共資料庫的,比如千人基因組的。值得注意的是,你拿到的資料是什麼人群的,基因型檔案就選用相應的人群資料,比如你的資料是歐洲祖先,那麼基因型的話就選用千人基因組的歐洲祖先人群,而不是所有樣本(兩千多個)。

基因型檔案1000G_EUR為PLINK格式(bed,bim,fam或者map,ped),PLINK格式還不瞭解?見推文

GWAS分析基本流程及分析思路

準備glist-hg19.txt檔案,格式如下所示:

glist-hg19.txt檔案出自GCTA網站,各位找不到的話在後臺傳送gli關鍵詞即可獲得該檔案。

3、gene-based關聯分析

準備好GWASp1000G_EURglist-hg19.txt後,輸入如下命令:

gcta64 --bfile 1000G_EUR --maf 0.01 --fastBAT GWASp --fastBAT-gene-list glist-hg19.txt --out GWASp_result --thread-num 10

4、結果解讀

完成以上分析後,會得到GWASp_result.gene.fastbat

的結果檔案,其示例如下所示:

其中,圈出來的紅框即為我們感興趣的基因與表型的相關性P值。顯著閾值的設定為:0.05/(GWASp_result.gene.fastbat檔案行數-1)


今天的介紹就到這,明天有時間的話再推一篇超實用的工具!

祝各位週一愉快!