Microbiome:巨集基因組分箱流程MetaWRAP安裝和資料庫佈置
文章目錄
簡介
MetaWRAP這是一套強大的巨集基因組分析流程,專注於巨集基因組Binning。文章於2018年9月15日發表於《Microbiome》。文章簡介見參考文獻連結。
軟體開源,程式碼和教程如下:
https://github.com/bxlab/metaWRAP
工作原理
metaWRAP工作流程
圖中紅色代表分析模組,綠色代表巨集基因組資料,橙色代表中間檔案,藍色代表結果圖表。
實現原始序列的質控、物種註釋和視覺化、巨集基因組拼接、三種主流Bin方法分析和結果篩選與視覺化、Bin的重新組裝、Bin的物種和功能註釋等。輕鬆實現Bin相關分析和視覺化的絕大部分需求。
優勢
圖2. 基於CAMI人工資料集高、中、低資料量下,對6款Bin軟體結果的完整度和汙染率進行評估。結果表明metaWRAP在各種情況下在完整度和汙染率方面都表現更優秀。
功能模組
巨集基因組資料預處理模組
- 質控Read_QC: read質控剪下和移除人類宿主
- 組裝Assembly: 質控、使用megahit或metaSPAdes拼接
- 物種註釋Kraken: 對reads和contigs層面進行視覺化
分箱Bin處理模組
- 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三個軟體分別分箱;
- 提純Bin_refinement:對多種Bin結果評估和綜合分析,獲得更好的結果;
- 重組裝Reassemble_bins:利用原始序列和評估軟體二次組裝,改善Bin的N50、完整度4) 定量Quant_bins: 估計樣品中每個bin的丰度並熱圖展示
- 氣泡圖Blobology: blobplots視覺化群體的contigs的物種和Bin分佈
- 物種註釋Classify_bins: 對Bin物種註釋
- 基因註釋Annotate_bins: 預測Bin中的基因
軟體安裝
系統要求
系統要求是由處理的資料量決定的。其中一些軟體,如KRAKEN、metaSPAdes對記憶體需求較高,推薦伺服器至少8+核,64+GB記憶體,僅支援64位Linux系統。對於300 GB以上資料使用者,推薦配置48核,512記憶體或更高。
軟體原作者的教程中引數使用了96執行緒和900G記憶體,可以推斷軟體開發和測試所用伺服器至少為96執行緒和1TB記憶體。
安裝conda
(安過請跳過,詳見- Nature Method:Bioconda解決生物軟體安裝的煩惱)
wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh
直接安裝——我沒成功,不推薦
此法使用方便,但可能安裝不成功、環境不滿足要求,或影響其它己安裝程式。
# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky
conda install -c ursky metawrap-mg
虛擬環境安裝——推薦
metaWRAP依賴超過140個軟體作為依賴關係,容易引起與已經安裝的軟體衝突。因此強烈推薦使用conda虛擬環境安裝。
每次使用要進入虛擬環境,結果要退出,多兩行程式碼;但更安全。
conda create -n metawrap python=2.7
source activate metawrap
# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky
conda install -c ursky metawrap-mg
手動安裝——不推薦
當然,如果你不喜歡conda,軟體也可以手動安裝,這樣可以更好的控制你的環境變數。依賴關係列表見 https://github.com/bxlab/metaWRAP/blob/master/installation/dependancies.md
不推薦,高手可能需要3-7天,對Linux不熟悉人簡直是不可完成的任務。
資料庫配置
conda安裝軟體並不帶資料庫,需要手動下載資料庫,並設定資料庫的位置。
關於資料庫的下載,詳見 https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md
主要大小和依賴模組如下:
Database | Size | Used in module |
---|---|---|
Checkm | 1.4GB | binning, bin_refinement, reassemble_bins |
KRAKEN | 192GB | kraken |
NCBI_nt | 99GB | blobology, classify_bins |
NCBI_tax | 283MB | blobology, classify_bins |
Indexed hg38 | 34GB | read_qc |
這裡我們安裝資料庫到~/db
目錄,保證你有許可權,但要保證至少有500GB的空間。請根據你的情況修改為自己有許可權且空間足夠的位置。
mkdir -p ~/db
CheckM資料庫
下載檔案276MB,解壓後1.4GB
cd ~/db
mkdir checkm
checkm data setRoot
# CheckM will prompt to to chose your storage location...
# Now manually download the database:
cd checkm
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
rm *.gz
KRAKEN資料庫
下載建索引需要 > 300GB以上空間,完成後佔用192GB空間
cd ~/db
mkdir kraken
kraken-build --standard --threads 24 --db kraken
kraken-build --db kraken --clean
NCBI_nt
41GB,我下載大約12h;解壓後99GB
cd ~/db
mkdir NCBI_nt && cd NCBI_nt
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done
NCBI物種資訊
壓縮檔案45M,解壓後351M
cd ~/db
mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz
人類基因組bmt索引
下載人類基因組942M,解壓後合併3.2G,並建索引34GB
mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fa
bmtool -d hg38.fa -o hg38.bitmask
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000
設定資料庫位置
配置檔案為config-metawrap
,使用如下命令查詢配置檔案位置:
which config-metawrap
查使用vi/vim/gedit等文字編輯器來修改資料庫的位置吧
引數簡介
metaWRAP程式整理了所有的功能模組,可以獨立執行。執行metaWRAP -h
顯示模組名稱
Usage: metawrap [module] --help
Options:
read_qc 質控Raw read QC module
assembly 組裝Assembly module
binning 分箱Binning module
bin_refinement 分箱提純Refinement of bins from binning module
reassemble_bins 重灌分箱Reassemble bins using metagenomic reads
quant_bins 定量Quantify the abundance of each bin across samples
blobology 視覺化Blobology module
kraken 物種註釋KRAKEN module
想檢視每個模組的具體引數,如組裝metawrap assembly -h
Usage: metawrap assembly [options] -1 reads_1.fastq -2 reads_2.fastq -o output_dir
Options:
-1 STR 正向序列forward fastq reads
-2 STR 反向序列reverse fastq reads
-o STR 輸出目錄output directory
-m INT 記憶體大小memory in GB (default=10)
-t INT 執行緒number of threads (defualt=1)
--use-megahit assemble with megahit (default)
--use-metaspades assemble with metaspades instead of megahit
詳細使用:見明天使用實戰
Reference
Micribome https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1
熱心腸日報 https://www.mr-gut.cn/papers/read/1059939857?kf=xread_daily
Microbiome:巨集基因組分箱流程MetaWRAP簡介 https://blog.csdn.net/woodcorpse/article/details/83040987
主頁和軟體安裝教程:https://github.com/bxlab/metaWRAP
資料庫佈署:https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md
使用教程:https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md
猜你喜歡
- 10000+: 菌群分析
寶寶與貓狗 提DNA發Nature 實驗分析誰對結果影響大 Cell微生物專刊 腸道指揮大腦 - 系列教程:微生物組入門 Biostar 微生物組 巨集基因組
- 專業技能:生信寶典 學術圖表 高分文章 不可或缺的人
- 一文讀懂:巨集基因組 寄生蟲益處 進化樹
- 必備技能:提問 搜尋 Endnote
- 文獻閱讀 熱心腸 SemanticScholar Geenmedical
- 擴增子分析:圖表解讀 分析流程 統計繪圖
- 16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
- 線上工具:16S預測培養基 生信繪圖
- 科研經驗:雲筆記 雲協作 公眾號
- 程式設計模板: Shell R Perl
- 生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧祕
寫在後面
為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2300+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA