1. 程式人生 > >NAR-2018-dbCAN2鑑定巨集基因組CAZYome碳水化合物相關基因

NAR-2018-dbCAN2鑑定巨集基因組CAZYome碳水化合物相關基因

文章目錄


巨集基因組資料分析中,經常會使用多種多樣的資料庫,如綜述型的有NCBI非冗餘核酸或蛋白序列庫(NR)、KEGG、COG、eggNOG、RFAM等。專業型的資料庫有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等眾多資料庫。同時基於這些資料庫,又開發了很多軟體、和線上伺服器(web server)方便同行使用。

今天帶大家來學習一下CAZy資料庫的使用。這裡推薦一個今年剛發表在核酸研究(IF>11)的webserver,方便大家滑鼠點點,輕鬆完成巨集基因組碳水化合物酶組學的註釋。

Science哈扎人CAZYome分析例項

之前精講過一篇Science封面文章,如下:

正文僅有3個主圖,圖2的巨集基因組部分就圍繞著碳水化合物代謝相關基因組(CAZYome)進行的研究。今天就帶大家學習一下它是如何實現。

先回顧一下Science圖2的主要結果。

例項解讀

本圖主要基於巨集基因組測序碳水化合物代謝基因的種類、丰度進行分析,揭示哈扎人菌群功能週期的變化和與現代人的差別。

本圖有8個子圖分為5組,從5個不同的角度/主題進行說明。

image

圖2. 哈扎人腸道菌群功能隨季節週期迴圈

(A) 箱線圖展示巨集基因組CAZYome基因Shannon多樣性按季節變化和與現代人比較;

(B) PCA分析CAZYome表明哈扎人與現代間此類基因顯著差異即為樣品間主要差異;

© 動植物碳水化合物/粘多糖佔CAZYome中比例在哈扎人和現代人間存在顯著差異;

(D) 幾種CAZymes丰度在哈扎人中週期變化,以及與現代人比較

(E) 抗生素抗性基因多樣性,哈扎人低於現代人,且存在季節週期變化

點評:巨集基因組中從整體到類別,可分析的結果很多,但結果是用於服務科學問題和故事主線

的。其中飲食的不同,主要影響碳水化合物的比例和組成,以及抗性基因的種類和豐度。因此選定好的邏輯出發點和故事主線是高水平文章的重點,這個別人很難幫你。但你有了好思路,找技術達人合作或與課題負責分析的朋友溝通,那是水到渠成和錦上添花的事,即使花費大量時間去美化都是值得的。當然也可自學差異箱線圖繪製。

分析方法探索(順藤摸瓜)

看完以上結果,我們會感覺工作很漂亮。但如何實現呢?這是一個大問題。我們接下來查詢文章的方法。

Science文章,正常只有2-3頁,大部分是結果,很少會有版面去描述方法。我們從文章主頁下載的補充材料。有巨集基因組分析方法描述如下:

巨集基因組測序分析

使用DeconSeq去除人類基因組資料。32個HMP人作為對照同哈扎人相同方法分析。DynamicTrim對巨集基因組資料質控,FragGeneScan鑑定編碼基因。資料採用HUMAnN2分配至KEGG資料庫。HMMER 3.0(45)使用dbCAN鑑定CAZymes(46);使用ResFams鑑定抗生素抗性基因(47),E-value < 1e-5。

  1. S. R. Eddy, A new generation of homology search tools based on probabilistic inference. Genome Inform. 23, 205–211 (2009). http://hmmer.org/
  2. Y. Yin, X. Mao, J. Yang, X. Chen, F. Mao, Y. Xu, dbCAN: A web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Res. 40, W445–451 (2012). http://cys.bios.niu.edu/dbCAN2/
  3. M. K. Gibson, K. J. Forsberg, G. Dantas, Improved annotation of antibiotic resistance determinants reveals microbial resistomes cluster by ecology. ISME J. 9, 207–216 (2015). http://www.dantaslab.org/resfams

我們列出了與CAZymes相關分析的方法段落,發現是使用dbCAN工具的HMMER方法鑑定的CAZymes,分別對應了引文45和46。再閱讀這兩篇文章,找到相關軟體和資料庫的主頁,發現了分析CAZymes的線上伺服器dbCAN2,它整合了最新的資料庫和三種方法,我們可以輕鬆線上完成分析。

dbCAN2——碳水化合物線上分析伺服器

文章:https://academic.oup.com/nar/article/46/W1/W95/4996582
image

dbCAN2於今年5月16日線上發表於《核酸研究》雜誌(IF=11.561),它是上文Science使用的dbCAN的升級版。知道為什麼出2嗎?第一版2012年出表至今已經引用571次了。
image

dbCAN2簡介

網址:http://cys.bios.niu.edu/dbCAN2/

dbCAN2巨集基因組伺服器自動化碳水化合物酶註釋。相關的網站有CAZy, CAT(過時)和Hotpep。

dbCAN2的分析的主要步驟如下:

  • 可提交基因組或巨集基因組序列fna檔案。真核基因組請使用蛋白序列faa檔案
  • 自動化註釋分三步
    • 基於dbCAN CAZyme結構域HMM資料庫,HMMER註釋CAZYme結構域的邊界
    • DIAMOND注快速釋blast比對CAZy資料庫
    • Hotpep基於PPR文庫鑑定短保守motifs
  • 提交faa + gff檔案,伺服器使用CGC-Finder可鑑定轉錄因子TF、轉動蛋白和CAZyme基因簇(CGCs)。
  • 結果可以視覺化,如維恩圖多方法比較。提供比對結果表格下載。

本伺服器每年更新一次CAZy資料庫。

image

主頁上有5個選單,分別主頁簡介(Home)、線上註釋(Annotate)、下載本地版(Download)、幫助(Help)和聯絡作者(About us)

詳細的教程可見幫助頁。

線上分析

image

線上分析基本原理如上圖。DNA進行預測蛋白。再進行三種方法(HMM, diamond, hotpep)的預測。

點選Annotate線上註釋

下圖以蛋白序列為例。核酸序列,軟體還會利用Prodigal自動預測蛋白。

image

  1. 填寫E-mail,任務完成時獲得結果連結;
  2. 序列型別,可選fasta核酸或蛋白序列
  3. 工具選擇。預設只選了HMMER,一般也夠用了。可以再選diamond、hotpep和CGCFinder。
  4. 基因位置檔案gff/bed格式(可選),蛋白則不需要;
  5. 序列檔案,少量可貼上,大量則上傳檔案,要求小於100M。

點選Submit就等著收結果吧。執行完成見如下頁面。即使關閉,會收到結果頁的連結。

image

上面維恩圖,是用三種註釋方法結果的比較。下面為註釋結果的總結,和每種方法的結果。可以下載結果表格。也可以檢視每種方法比對結果的詳細。

要想檢視每種CAZy酶的註釋,可以點選藍色的連結,跳轉CAZy官網檢視。

image

基於註釋的結果,對我們巨集基因組基因丰度矩陣進行篩選,就可以進行CAZyome的分析了。是不是挺容易的。

本地軟體和資料庫下載

http://cys.bios.niu.edu/dbCAN2/download/

有本平臺所有的軟體和資料庫,檢視README.txt

The Tools directory contains tools used in dbCAN meta server. These include CGC-Finder, the Python verson of Hotpep, and a parser for HMMER. 

The Databases directory contains all the databases used in dbCAN meta server. These are CAZy, dbCAN, PPR, tcdb, and tf.

README.txt			this file

Tools/
	CGC-Finder.tar.gz	CGC-Finder program
	hmmscan-parser.tar.gz	分析hmm結果檔案的指令碼Script to parse hmmscan output of dbCAN search
	hotpep-python.tar.gz	Hotpep program and data
	run_dbcan.tar.gz	dbcan執行指令碼 Script to run a stand alone version of dbCAN meta


Databases/
	[email protected]/		Data in the old dbCAN [email protected]
	tcdb.fa			轉運蛋白註釋 transporter proteins annotated at http://www.tcdb.org/
	tf.fa			轉錄因子 transcription factor proteins annotated at collectf DB, RegulonDB, and DBTBS
	CAZy.08312018.fa	CAZy資料庫 GenBank proteins annotated as CAZymes by CAZy
	dbCAN-HMMdb-V7.txt	模型 dbCAN HMM DB

碳水化合物蛋白資料庫

CAZyDB.07312018.fa 蛋白序列520Mb,可以用diamond比對

序列名為GeneBankID,和分類

AWI06117.1|GT2

CAZyDB.07312018.fam-activities.txt 分類描述檔案

AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;

CAZyDB.07312018.pr-with-ec.txt 基因對應酶學編號

AAC00570.1 GT1|2.4.1.195

HMM資料庫

dbCAN-HMMdb-V7.txt HMM模型

dbCAN2具體的本地安裝涉及較多軟體和資料庫的佈置,有時間寫個專門的文章進行講解。本文講的線上版分析可以滿足大多數同行

Reference

  1. Smits, Samuel A., et al. “Seasonal cycling in the gut microbiome of the Hadza hunter-gatherers of Tanzania.” Science 357.6353 (2017): 802-806. http://science.sciencemag.org/content/357/6353/802
  2. 附件目錄 http://science.sciencemag.org/content/suppl/2017/08/24/357.6353.802.DC1
  3. 補充方法 http://science.sciencemag.org/content/sci/suppl/2017/08/24/357.6353.802.DC1/aan4834_Smits_SM.pdf
  4. 附表1. 樣品列表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/1/aan4834_Table_S1.csv
  5. 附表3. KEGG通路表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/2/aan4834_Table_S3.csv
  6. 附表4. KEGG Carbohydrate Metabolism pathways http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/3/aan4834_Table_S4.csv
  7. Zhang, Han, et al. “dbCAN2: a meta server for automated carbohydrate-active enzyme annotation.” Nucleic acids research (2018).
  8. http://cys.bios.niu.edu/dbCAN2/

猜你喜歡

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2300+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
image

學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA