NAR-2018-dbCAN2鑑定巨集基因組CAZYome碳水化合物相關基因
文章目錄
巨集基因組資料分析中,經常會使用多種多樣的資料庫,如綜述型的有NCBI非冗餘核酸或蛋白序列庫(NR)、KEGG、COG、eggNOG、RFAM等。專業型的資料庫有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等眾多資料庫。同時基於這些資料庫,又開發了很多軟體、和線上伺服器(web server)方便同行使用。
今天帶大家來學習一下CAZy資料庫的使用。這裡推薦一個今年剛發表在核酸研究(IF>11)的webserver,方便大家滑鼠點點,輕鬆完成巨集基因組碳水化合物酶組學的註釋。
Science哈扎人CAZYome分析例項
之前精講過一篇Science封面文章,如下:
正文僅有3個主圖,圖2的巨集基因組部分就圍繞著碳水化合物代謝相關基因組(CAZYome)進行的研究。今天就帶大家學習一下它是如何實現。
先回顧一下Science圖2的主要結果。
例項解讀
本圖主要基於巨集基因組測序碳水化合物代謝基因的種類、丰度進行分析,揭示哈扎人菌群功能週期的變化和與現代人的差別。
本圖有8個子圖分為5組,從5個不同的角度/主題進行說明。
圖2. 哈扎人腸道菌群功能隨季節週期迴圈
(A) 箱線圖展示巨集基因組CAZYome
基因Shannon多樣性按季節變化和與現代人比較;
(B) PCA分析CAZYome表明哈扎人與現代間此類基因顯著差異即為樣品間主要差異;
© 動植物碳水化合物/粘多糖佔CAZYome中比例在哈扎人和現代人間存在顯著差異;
(D) 幾種CAZymes丰度在哈扎人中週期變化,以及與現代人比較
(E) 抗生素抗性基因多樣性,哈扎人低於現代人,且存在季節週期變化
點評:巨集基因組中從整體到類別,可分析的結果很多,但結果是用於服務科學問題和故事主線
分析方法探索(順藤摸瓜)
看完以上結果,我們會感覺工作很漂亮。但如何實現呢?這是一個大問題。我們接下來查詢文章的方法。
Science文章,正常只有2-3頁,大部分是結果,很少會有版面去描述方法。我們從文章主頁下載的補充材料。有巨集基因組分析方法描述如下:
巨集基因組測序分析
使用DeconSeq去除人類基因組資料。32個HMP人作為對照同哈扎人相同方法分析。DynamicTrim對巨集基因組資料質控,FragGeneScan鑑定編碼基因。資料採用HUMAnN2分配至KEGG資料庫。HMMER 3.0(45)使用dbCAN鑑定CAZymes(46);使用ResFams鑑定抗生素抗性基因(47),E-value < 1e-5。
- S. R. Eddy, A new generation of homology search tools based on probabilistic inference. Genome Inform. 23, 205–211 (2009). http://hmmer.org/
- Y. Yin, X. Mao, J. Yang, X. Chen, F. Mao, Y. Xu, dbCAN: A web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Res. 40, W445–451 (2012). http://cys.bios.niu.edu/dbCAN2/
- M. K. Gibson, K. J. Forsberg, G. Dantas, Improved annotation of antibiotic resistance determinants reveals microbial resistomes cluster by ecology. ISME J. 9, 207–216 (2015). http://www.dantaslab.org/resfams
我們列出了與CAZymes相關分析的方法段落,發現是使用dbCAN工具的HMMER方法鑑定的CAZymes,分別對應了引文45和46。再閱讀這兩篇文章,找到相關軟體和資料庫的主頁,發現了分析CAZymes的線上伺服器dbCAN2,它整合了最新的資料庫和三種方法,我們可以輕鬆線上完成分析。
dbCAN2——碳水化合物線上分析伺服器
文章:https://academic.oup.com/nar/article/46/W1/W95/4996582
dbCAN2於今年5月16日線上發表於《核酸研究》雜誌(IF=11.561),它是上文Science使用的dbCAN的升級版。知道為什麼出2嗎?第一版2012年出表至今已經引用571次了。
dbCAN2簡介
網址:http://cys.bios.niu.edu/dbCAN2/
dbCAN2巨集基因組伺服器自動化碳水化合物酶註釋。相關的網站有CAZy, CAT(過時)和Hotpep。
dbCAN2的分析的主要步驟如下:
- 可提交基因組或巨集基因組序列fna檔案。真核基因組請使用蛋白序列faa檔案
- 自動化註釋分三步
- 基於dbCAN CAZyme結構域HMM資料庫,HMMER註釋CAZYme結構域的邊界
- DIAMOND注快速釋blast比對CAZy資料庫
- Hotpep基於PPR文庫鑑定短保守motifs
- 提交faa + gff檔案,伺服器使用CGC-Finder可鑑定轉錄因子TF、轉動蛋白和CAZyme基因簇(CGCs)。
- 結果可以視覺化,如維恩圖多方法比較。提供比對結果表格下載。
本伺服器每年更新一次CAZy資料庫。
主頁上有5個選單,分別主頁簡介(Home)、線上註釋(Annotate)、下載本地版(Download)、幫助(Help)和聯絡作者(About us)
詳細的教程可見幫助頁。
線上分析
線上分析基本原理如上圖。DNA進行預測蛋白。再進行三種方法(HMM, diamond, hotpep)的預測。
點選Annotate線上註釋
下圖以蛋白序列為例。核酸序列,軟體還會利用Prodigal自動預測蛋白。
- 填寫E-mail,任務完成時獲得結果連結;
- 序列型別,可選fasta核酸或蛋白序列
- 工具選擇。預設只選了HMMER,一般也夠用了。可以再選diamond、hotpep和CGCFinder。
- 基因位置檔案gff/bed格式(可選),蛋白則不需要;
- 序列檔案,少量可貼上,大量則上傳檔案,要求小於100M。
點選Submit就等著收結果吧。執行完成見如下頁面。即使關閉,會收到結果頁的連結。
上面維恩圖,是用三種註釋方法結果的比較。下面為註釋結果的總結,和每種方法的結果。可以下載結果表格。也可以檢視每種方法比對結果的詳細。
要想檢視每種CAZy酶的註釋,可以點選藍色的連結,跳轉CAZy官網檢視。
基於註釋的結果,對我們巨集基因組基因丰度矩陣進行篩選,就可以進行CAZyome的分析了。是不是挺容易的。
本地軟體和資料庫下載
http://cys.bios.niu.edu/dbCAN2/download/
有本平臺所有的軟體和資料庫,檢視README.txt
The Tools directory contains tools used in dbCAN meta server. These include CGC-Finder, the Python verson of Hotpep, and a parser for HMMER.
The Databases directory contains all the databases used in dbCAN meta server. These are CAZy, dbCAN, PPR, tcdb, and tf.
README.txt this file
Tools/
CGC-Finder.tar.gz CGC-Finder program
hmmscan-parser.tar.gz 分析hmm結果檔案的指令碼Script to parse hmmscan output of dbCAN search
hotpep-python.tar.gz Hotpep program and data
run_dbcan.tar.gz dbcan執行指令碼 Script to run a stand alone version of dbCAN meta
Databases/
[email protected]/ Data in the old dbCAN [email protected]
tcdb.fa 轉運蛋白註釋 transporter proteins annotated at http://www.tcdb.org/
tf.fa 轉錄因子 transcription factor proteins annotated at collectf DB, RegulonDB, and DBTBS
CAZy.08312018.fa CAZy資料庫 GenBank proteins annotated as CAZymes by CAZy
dbCAN-HMMdb-V7.txt 模型 dbCAN HMM DB
碳水化合物蛋白資料庫
CAZyDB.07312018.fa 蛋白序列520Mb,可以用diamond比對
序列名為GeneBankID,和分類
AWI06117.1|GT2
CAZyDB.07312018.fam-activities.txt 分類描述檔案
AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;
CAZyDB.07312018.pr-with-ec.txt 基因對應酶學編號
AAC00570.1 GT1|2.4.1.195
HMM資料庫
dbCAN-HMMdb-V7.txt HMM模型
dbCAN2具體的本地安裝涉及較多軟體和資料庫的佈置,有時間寫個專門的文章進行講解。本文講的線上版分析可以滿足大多數同行。
Reference
- Smits, Samuel A., et al. “Seasonal cycling in the gut microbiome of the Hadza hunter-gatherers of Tanzania.” Science 357.6353 (2017): 802-806. http://science.sciencemag.org/content/357/6353/802
- 附件目錄 http://science.sciencemag.org/content/suppl/2017/08/24/357.6353.802.DC1
- 補充方法 http://science.sciencemag.org/content/sci/suppl/2017/08/24/357.6353.802.DC1/aan4834_Smits_SM.pdf
- 附表1. 樣品列表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/1/aan4834_Table_S1.csv
- 附表3. KEGG通路表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/2/aan4834_Table_S3.csv
- 附表4. KEGG Carbohydrate Metabolism pathways http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/3/aan4834_Table_S4.csv
- Zhang, Han, et al. “dbCAN2: a meta server for automated carbohydrate-active enzyme annotation.” Nucleic acids research (2018).
- http://cys.bios.niu.edu/dbCAN2/
猜你喜歡
- 10000+: 菌群分析
寶寶與貓狗 提DNA發Nature 實驗分析誰對結果影響大 Cell微生物專刊 腸道指揮大腦 - 系列教程:微生物組入門 Biostar 微生物組 巨集基因組
- 專業技能:生信寶典 學術圖表 高分文章 不可或缺的人
- 一文讀懂:巨集基因組 寄生蟲益處 進化樹
- 必備技能:提問 搜尋 Endnote
- 文獻閱讀 熱心腸 SemanticScholar Geenmedical
- 擴增子分析:圖表解讀 分析流程 統計繪圖
- 16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
- 線上工具:16S預測培養基 生信繪圖
- 科研經驗:雲筆記 雲協作 公眾號
- 程式設計模板: Shell R Perl
- 生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧祕
寫在後面
為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2300+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA