1. 程式人生 > >Microbiome:巨集基因組分箱流程MetaWRAP安裝和資料庫佈置

Microbiome:巨集基因組分箱流程MetaWRAP安裝和資料庫佈置

文章目錄

簡介

MetaWRAP這是一套強大的巨集基因組分析流程,專注於巨集基因組Binning。文章於2018年9月15日發表於《Microbiome》。文章簡介見參考文獻連結。

image

軟體開源,程式碼和教程如下:

https://github.com/bxlab/metaWRAP

image

工作原理

image

metaWRAP工作流程

圖中紅色代表分析模組,綠色代表巨集基因組資料,橙色代表中間檔案,藍色代表結果圖表。

實現原始序列的質控、物種註釋和視覺化、巨集基因組拼接、三種主流Bin方法分析和結果篩選與視覺化、Bin的重新組裝、Bin的物種和功能註釋等。輕鬆實現Bin相關分析和視覺化的絕大部分需求。

優勢

image
圖2. 基於CAMI人工資料集高、中、低資料量下,對6款Bin軟體結果的完整度和汙染率進行評估。結果表明metaWRAP在各種情況下在完整度和汙染率方面都表現更優秀。

功能模組

巨集基因組資料預處理模組

  1. 質控Read_QC: read質控剪下和移除人類宿主
  2. 組裝Assembly: 質控、使用megahit或metaSPAdes拼接
  3. 物種註釋Kraken: 對reads和contigs層面進行視覺化

分箱Bin處理模組

  1. 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三個軟體分別分箱;
  2. 提純Bin_refinement:對多種Bin結果評估和綜合分析,獲得更好的結果;
  3. 重組裝Reassemble_bins:利用原始序列和評估軟體二次組裝,改善Bin的N50、完整度4) 定量Quant_bins: 估計樣品中每個bin的丰度並熱圖展示
  4. 氣泡圖Blobology: blobplots視覺化群體的contigs的物種和Bin分佈
  5. 物種註釋Classify_bins: 對Bin物種註釋
  6. 基因註釋Annotate_bins: 預測Bin中的基因

軟體安裝

系統要求

系統要求是由處理的資料量決定的。其中一些軟體,如KRAKEN、metaSPAdes對記憶體需求較高,推薦伺服器至少8+核,64+GB記憶體,僅支援64位Linux系統。對於300 GB以上資料使用者,推薦配置48核,512記憶體或更高。

軟體原作者的教程中引數使用了96執行緒和900G記憶體,可以推斷軟體開發和測試所用伺服器至少為96執行緒和1TB記憶體。

安裝conda

(安過請跳過,詳見- Nature Method:Bioconda解決生物軟體安裝的煩惱)

wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh

直接安裝——我沒成功,不推薦

此法使用方便,但可能安裝不成功、環境不滿足要求,或影響其它己安裝程式。

# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky

conda install -c ursky metawrap-mg

虛擬環境安裝——推薦

metaWRAP依賴超過140個軟體作為依賴關係,容易引起與已經安裝的軟體衝突。因此強烈推薦使用conda虛擬環境安裝。

每次使用要進入虛擬環境,結果要退出,多兩行程式碼;但更安全。

conda create -n metawrap python=2.7
source activate metawrap

# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky

conda install -c ursky metawrap-mg

手動安裝——不推薦

當然,如果你不喜歡conda,軟體也可以手動安裝,這樣可以更好的控制你的環境變數。依賴關係列表見 https://github.com/bxlab/metaWRAP/blob/master/installation/dependancies.md

不推薦,高手可能需要3-7天,對Linux不熟悉人簡直是不可完成的任務。

資料庫配置

conda安裝軟體並不帶資料庫,需要手動下載資料庫,並設定資料庫的位置。

關於資料庫的下載,詳見 https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md

主要大小和依賴模組如下:

Database Size Used in module
Checkm 1.4GB binning, bin_refinement, reassemble_bins
KRAKEN 192GB kraken
NCBI_nt 99GB blobology, classify_bins
NCBI_tax 283MB blobology, classify_bins
Indexed hg38 34GB read_qc

這裡我們安裝資料庫到~/db目錄,保證你有許可權,但要保證至少有500GB的空間。請根據你的情況修改為自己有許可權且空間足夠的位置。

mkdir -p ~/db

CheckM資料庫

下載檔案276MB,解壓後1.4GB

cd ~/db
mkdir checkm
checkm data setRoot
# CheckM will prompt to to chose your storage location...

# Now manually download the database:
cd checkm
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
rm *.gz

KRAKEN資料庫

下載建索引需要 > 300GB以上空間,完成後佔用192GB空間

cd ~/db
mkdir kraken
kraken-build --standard --threads 24 --db kraken
kraken-build --db kraken --clean

NCBI_nt

41GB,我下載大約12h;解壓後99GB

cd ~/db
mkdir NCBI_nt && cd NCBI_nt
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done

NCBI物種資訊

壓縮檔案45M,解壓後351M

cd ~/db
mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz

人類基因組bmt索引

下載人類基因組942M,解壓後合併3.2G,並建索引34GB

mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fa

bmtool -d hg38.fa -o hg38.bitmask
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000

設定資料庫位置

配置檔案為config-metawrap,使用如下命令查詢配置檔案位置:

which config-metawrap

查使用vi/vim/gedit等文字編輯器來修改資料庫的位置吧

image

引數簡介

metaWRAP程式整理了所有的功能模組,可以獨立執行。執行metaWRAP -h顯示模組名稱

Usage: metawrap [module] --help
Options:

read_qc		質控Raw read QC module
assembly	組裝Assembly module
binning		分箱Binning module
bin_refinement	分箱提純Refinement of bins from binning module
reassemble_bins 重灌分箱Reassemble bins using metagenomic reads
quant_bins	定量Quantify the abundance of each bin across samples
blobology	視覺化Blobology module
kraken		物種註釋KRAKEN module

想檢視每個模組的具體引數,如組裝metawrap assembly -h

Usage: metawrap assembly [options] -1 reads_1.fastq -2 reads_2.fastq -o output_dir
Options:

-1 STR          正向序列forward fastq reads
-2 STR          反向序列reverse fastq reads
-o STR          輸出目錄output directory
-m INT          記憶體大小memory in GB (default=10)
-t INT          執行緒number of threads (defualt=1)
--use-megahit		assemble with megahit (default)
--use-metaspades	assemble with metaspades instead of megahit

詳細使用:見明天使用實戰

Reference

Micribome https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1

熱心腸日報 https://www.mr-gut.cn/papers/read/1059939857?kf=xread_daily

Microbiome:巨集基因組分箱流程MetaWRAP簡介 https://blog.csdn.net/woodcorpse/article/details/83040987

主頁和軟體安裝教程:https://github.com/bxlab/metaWRAP

資料庫佈署:https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md

使用教程:https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md

猜你喜歡

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2300+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
image

學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA