基於GCTA的gene-based關聯分析研究
今天博主博士答辯完畢啦,超開心的,撒花~
雖然很疲憊(昨晚太晚睡了==),但想到今天跟師妹說給她gene-based關聯分析的方法。
於是,決定還是整理好了再休息休息。
好,進入主題。
之前的推文我曾經寫過使用VEGAS2(Versatile Gene-based Association Study)進行gene based的關聯分析研究。
但用過的人就知道,VEGAS2有個很明顯的缺點,跑起來很佔CPU,因此今天再重新推薦另一個工具GCTA,也是可以計算gene-based關聯分析的。
1、下載、安裝
首先,下載GCTA:
wget https://cnsgenomics.com/software/gcta/bin/gcta_1.92.4beta2.zip
解壓:
unzip gcta_1.92.4beta2.zip
cd gcta_1.92.4beta2
2、準備輸入檔案
準備summary_statistics的輸入檔案GWASp,輸入檔案GWASp包括兩列,第一列是SNP的ID,第二列是SNP的P值(這裡顯示的是P-value)。
準備基因型檔案1000G_EUR
,基因型檔案可以是公共資料庫的,比如千人基因組的。值得注意的是,你拿到的資料是什麼人群的,基因型檔案就選用相應的人群資料,比如你的資料是歐洲祖先,那麼基因型的話就選用千人基因組的歐洲祖先人群,而不是所有樣本(兩千多個)。
基因型檔案1000G_EUR
為PLINK格式(bed,bim,fam或者map,ped),PLINK格式還不瞭解?見推文
準備glist-hg19.txt
檔案,格式如下所示:
glist-hg19.txt
檔案出自GCTA網站,各位找不到的話在後臺傳送gli
關鍵詞即可獲得該檔案。
3、gene-based關聯分析
準備好GWASp
、1000G_EUR
和glist-hg19.txt
後,輸入如下命令:
gcta64 --bfile 1000G_EUR --maf 0.01 --fastBAT GWASp --fastBAT-gene-list glist-hg19.txt --out GWASp_result --thread-num 10
4、結果解讀
完成以上分析後,會得到GWASp_result.gene.fastbat
其中,圈出來的紅框即為我們感興趣的基因與表型的相關性P值。顯著閾值的設定為:0.05/(GWASp_result.gene.fastbat
檔案行數-1)
今天的介紹就到這,明天有時間的話再推一篇超實用的工具!
祝各位週一愉快!