基於GCTA的gene-based關聯分析研究

阿新 • • 發佈：2020-11-23

今天博主博士答辯完畢啦，超開心的，撒花~

雖然很疲憊（昨晚太晚睡了==），但想到今天跟師妹說給她gene-based關聯分析的方法。

於是，決定還是整理好了再休息休息。

好，進入主題。

之前的推文我曾經寫過使用VEGAS2（Versatile Gene-based Association Study）進行gene based的關聯分析研究。

但用過的人就知道，VEGAS2有個很明顯的缺點，跑起來很佔CPU，因此今天再重新推薦另一個工具GCTA，也是可以計算gene-based關聯分析的。

1、下載、安裝

首先，下載GCTA：

wget https://cnsgenomics.com/software/gcta/bin/gcta_1.92.4beta2.zip

解壓：

unzip gcta_1.92.4beta2.zip
cd gcta_1.92.4beta2

2、準備輸入檔案

準備summary_statistics的輸入檔案GWASp，輸入檔案GWASp包括兩列，第一列是SNP的ID，第二列是SNP的P值（這裡顯示的是P-value）。

準備基因型檔案1000G_EUR，基因型檔案可以是公共資料庫的，比如千人基因組的。值得注意的是，你拿到的資料是什麼人群的，基因型檔案就選用相應的人群資料，比如你的資料是歐洲祖先，那麼基因型的話就選用千人基因組的歐洲祖先人群，而不是所有樣本（兩千多個）。

基因型檔案1000G_EUR為PLINK格式（bed,bim,fam或者map,ped）,PLINK格式還不瞭解？見推文

GWAS分析基本流程及分析思路

準備glist-hg19.txt檔案，格式如下所示：

glist-hg19.txt檔案出自GCTA網站，各位找不到的話在後臺傳送gli關鍵詞即可獲得該檔案。

3、gene-based關聯分析

準備好GWASp、1000G_EUR和glist-hg19.txt後，輸入如下命令：

gcta64 --bfile 1000G_EUR --maf 0.01 --fastBAT GWASp --fastBAT-gene-list glist-hg19.txt --out GWASp_result --thread-num 10

4、結果解讀

完成以上分析後，會得到GWASp_result.gene.fastbat

的結果檔案，其示例如下所示：

其中，圈出來的紅框即為我們感興趣的基因與表型的相關性P值。顯著閾值的設定為：0.05/（GWASp_result.gene.fastbat檔案行數-1）

今天的介紹就到這，明天有時間的話再推一篇超實用的工具！

祝各位週一愉快！

基於GCTA的gene-based關聯分析研究

今天博主博士答辯完畢啦，超開心的，撒花~ 雖然很疲憊（昨晚太晚睡了==），但想到今天跟師妹說給她gene-based關聯分析的方法。

【翻譯】RAINBOW：採用新型SNP-set方法的基於單倍型的全基因組關聯分析【第一部分：摘要和引言】

原文標題：RAINBOW: Haplotype-based genome-wide association study using a novel SNP-set method 摘要

Java 中基於各種資料型別分析 == 和 equals 的區別

前言分析一、int 和 Integer1、Integer 物件使用 new 關鍵字生成2、表面上不是 new 關鍵字生成的 Integer 物件3、兩個 int 變數比較4、new 生成的 Integer 物件和 int 變數比較5、非 new 生成的 Integer 物件和 int

基於Tensorflow:CPU效能分析

iostat iostat用於輸出CPU和磁碟I/O相關的統計資訊. 命令格式: 1）顯示所有裝置負載情況

基於Pytorch SSD模型分析

本文參考github上SSD實現,對模型進行分析,主要分析模型組成及輸入輸出大小.SSD網路結構如下圖:

Python基於pyecharts實現關聯圖繪製

生活中有很多需要用到關聯圖的地方，至少我認為的是這樣的圖：https://www.echartsjs.com/examples/zh/editor.html?c=graph-npm

基於Python詞雲分析政府工作報告關鍵詞

前言十三屆全國人大三次會議作了政府工作報告。這份政府工作報告僅有10500字左右，據悉是改革開放40年以來最短的一次。受到疫情影響，今年的兩會會議適當縮短，政府工作報告也大幅壓縮，體現了“實幹為要”的理念。

如何基於js及java分析並封裝排序演算法

前言　　本次來分享一下排序的api底層的邏輯，這次用js模擬，java的邏輯也是差不多。

618前端競品分析研究（互動篇）

作者：吉玉智慧化測試在互動中經常需要維護大量的狀態，對這些狀態進行測試驗證成本較高，尤其是當有功能變動需要回歸測試的時候。為了降低開發測試的成本，在這方面使用強化學習模擬使用者行為，在兩個方面提效：

Apriori關聯分析

關聯分析關聯關係是一種非常有用的資料探勘演算法，它可以分析出資料內在的關聯關係。其中比較著名的是啤酒和尿不溼的案例

Java的IO模型基於網路程式設計利弊分析

JAVA的IO模型基於網路程式設計利弊分析一、IO通俗理解 IO的過程思考①答案：檔案控制代碼

灰色關聯分析

技術標籤：數模文章目錄前言一、灰色關聯分析是什麼？二、使用步驟1.畫出統計圖2.確定分析序列3.對變數進行預處理4.計運算元序列各個指標的關聯絡數5.定義灰色關聯度

HashSet原始碼分析，基於JDK1.8詳細分析

閱讀本文章之前推薦先閱讀博主關於HashMap的文章： HashMap原始碼分析 + 面試題

PriorityQueue原始碼分析，基於JDK1.8詳細分析

閱讀本文章之前推薦先閱讀博主關於堆排序相關的內容，傳送地址：八大排序演算法大彙總原理+圖解+原始碼+複雜度分析

【故障分析】基於matlab軸承故障分析（時頻圖+功率譜）【含Matlab原始碼 922期】

一、簡介基於matlab軸承故障分析（時頻圖+功率譜）二、原始碼 clc clear all x1=load(\'sig1.txt\');

【語音分析】基於matlab倒譜分析與MFCC係數計算【含Matlab原始碼 556期】

一、簡介 1 梅爾頻率倒譜系數(MFCC) 在任意一個Automatic speech recognition 系統中，第一步就是提取特徵。換句話說，我們需要把音訊訊號中具有辨識性的成分提取出來，然後把其他的亂七八糟的資訊扔掉，例如背景噪聲

【翻譯】全基因組關聯分析教程：質量控制和統計分析【第二部分：軟體介紹&質量控制】

原文標題：A tutorial on conducting genome-wide association studies: Quality control and statistical analysis

【翻譯】全基因組關聯分析教程：質量控制和統計分析【第三部分：種群分層控制和關聯統計計算】

原文標題：A tutorial on conducting genome-wide association studies: Quality control and statistical analysis

關聯分析--R的實現

R中的實現 1相關軟體包 R中兩個專用於關聯分析的軟體包-—arules 和 arulesViz。其中，arules用於關聯規則的數字化生成,提供Apriori和 Eclat這兩種快速挖掘頻繁項集和關聯規則演算法的實現函式;而arulesViz軟體包作

關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

關聯分析概述關聯分析是資料探勘的核心技術之一，其關聯規則模型及資料探勘演算法是由 IBM 公司Almaden研究中心的R.Agrawal在1993年首先提出的，目的是從大量資料中發現項集之間的有趣關聯或相互關係，其中最經典

基於GCTA的gene-based關聯分析研究

1、下載、安裝

2、準備輸入檔案

3、gene-based關聯分析

4、結果解讀

相關推薦