1. 程式人生 > >NAR:gcMeta——全球微生物組資料儲存和標準化分析平臺

NAR:gcMeta——全球微生物組資料儲存和標準化分析平臺

文章目錄


image

gcMeta全球微生物組資料儲存和標準分析平臺

gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization and analysis of microbiome data

Nucleic Acids Research, [11.561], Article, 2018-10-31

原文連結: http://dx.doi.org/10.1093/nar/gky1008

第一作者:Wenyu Shi(史文聿), Heyuan Qi(亓合媛)

通訊作者:Linhuan Wu(吳林寰),Juncai Ma(馬俊才)

主要單位:中國科學院微生物所

其它作者:Qinglan Sun,Guomei Fan,Shuangjiang Liu,Jun Wang,Baoli Zhu,Hongwei Liu,Fangqing Zhao,Xiaochen Wang,Xiaoxuan Hu,Wei Li,Jia Liu,Ye Tian

導讀

gcMeta提供微生物組及微生物基因組的資料儲存、分析到釋出一站式服務;

目前儲存了公共或私有的12萬樣本,120TB資料,併為使用者提供專案資料管理系統;

平臺基於Docker部署了90款生信軟體,可實現巨集基因組拼接和註釋、16S擴增子物種註釋、有參擴增子分析、單菌基因組拼接和註釋、轉錄組分析五大常用流程;

樣本可提供發表專用的PID,並自動追蹤引用;

作為CAS-CMI計劃的一部分,有助於推進我國微生物組資料資源的系統管理和高效利用。

摘要

在微生物群體結構和功能研究中,正在增加多組學的方法。環境和不同棲息地的大規模合作專案的研究正在進行,為滿足當今大專案的資料維護和資料分析的要求。全球巨集基因組集(gcMeta)是中科院微生物組計劃的部分,關注人類和環境微生物組研究,儲存樣本、菌株和資料,提升國際合作。為提供數千人類和環境微生物組樣本的後勤,gcMeta是一個數據存檔、管理和釋出系統。基於Docker整合了90多個數據庫的分析工具,可以使用不同作業系統。本平臺基於CAS-CMI專案和其它專案快速發展。總結,本平臺提供使用者友好的介面服務於全球巨集組學研究。

正文

圖1.使用者資料管理、分析及釋出流程

image

gcMeta主要分為三部分,資料管理、資料分析和資料發表。使用者使用自己的帳號提交原始資料,可以使用預安裝的工具和流程。資料結果可以下載進一步分析。每個PID將在發表前分配給資料。如果被引用,會自動追蹤。

圖2.資料庫結構

image

不同表的屬性和之間的關係

表1.平臺內建工具

image

工具分為序列預處理、序列組裝、基因組結果分析、資料庫註釋、群體組成和序列比對,分別標紅、藍、紫、橙和黃。沒有正式發表文章的軟體引用相關網址:BBtools
software suite (http://jgi.doe.gov/data-and-tools/bbtools/), FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/), fastp (https://github.com/
OpenGene/fastp/), Trim Galore (http://www.bioinformatics.babraham.ac.uk/projects/trim galore/), minced (https://github.com/ctSkennerton/minced/tree/
master) and RepeatMasker (http://ftp.genome.washington.edu/cgi-bin/RepeatMasker)

圖3.使用者介面展示

image

A. gcMeta主頁。統計數字是公開和末發表研究、樣本、實驗和測序檔案數量。
B. 資料提交網頁。每個提交可以保密或公開。
C. 資料庫瀏覽器截圖。檢索介面,可按實驗型別、樣本型別和資料來源分析。

圖4.gcMeta的工作流程

image

本工具主要分為6大模組(巨集基因組Binning、物種註釋和下游分析標為綠色)。不同功能組連線行成不同的工作流。6個主要流覆蓋了不同目的地分析。

圖5.資料分析及視覺化系統

image

A, B. 平均核酸相似度(ANI, average nucleotide identity)、資料DNA-DNA雜交計算(dDDH)對末註冊使用者開放。(A) 任務提交介面截圖,包括上傳模組和必須的引數設計。(B) 任務執行結果。(C-F) 巨集基因組16S擴增子測序物種分類流程。© 流程圖。
(D) 輸入、輸出和引數設定;E. 流程的結果;F. 分析的結果,示例為基於ggplot繪製的PCoA圖。

圖6.系統結構

image

平臺使用資料庫管理系統和Docker整合了儲存叢集和計算叢集,使使用者方便資料的儲存、發表和分析。

中科院微生物所新聞稿

10月26日,《核酸研究》(SCI影響因子11.561)(Nucleic Acids Research)線上發表中科院微生物研究所微生物資源與大資料中心、世界微生物資料中心馬俊才團隊題為“gcMeta: a Global Catalogueof Metagenomics platform to support the archiving, standardization and analysisof microbiome data”的研究論文。gcMeta平臺是一個微生物基因組及微生物組資料的管理、分析和釋出平臺,為國內外使用者提供一站式的從資料儲存、資料分析到資料釋出的服務,目前已經整合了來自中國科學院微生物組計劃及國內外多個重要專案的資料。該平臺的釋出將有效支撐我國微生物組研究併為未來我國國家微生物組計劃的實施提供重要的支援。

近年來,美國、歐盟都陸續啟動了微生物組相關的研究專案。但微生物組大資料的收集、儲存、功能挖掘和開發利用一直是制約微生物組發展的核心問題。我國目前在微生物組資料管理中存在著標準不統一、缺乏跨領域的資料整合、高質量的參考資料庫和資料的深度挖掘技術等問題。2017年,中國科學院啟動了“中國微生物組計劃”專案,專案旨在進一步強化我院在微生物組研究和開發利用等方面的共性技術和平臺優勢,聚焦“人體健康和環境”微生物組,開發相應的微生物組學新方法、新技術;通過研究其結構與功能、群體間的競爭與合作,微生物組與人體等宿主和環境相互作用、及與宿主的寄生共生健康發育等關係,發現微生物與人類和環境共同演化的科學規律。同時,也將在微生物組資料標準化的基礎上,建立微生物組大資料計算、儲存和共享平臺,開發微生物組大資料探勘的新方法,實現我國微生物組資料資源的系統管理和高效利用。

gcMeta建立了一個微生物基因組、元基因組和轉錄組管理、資料線上分析、視覺化及資料釋出的一站式系統。目前已經整合來自國際相關平臺(NCBI、EBI、MG-RAST等)及重要專案(HMP、Tara等)超過12萬樣本資料,來自我國科學家的超過2000餘個樣本資料,總資料量超過120TB。平臺為使用者提供了多級的資料管理和許可權控制體系,可用於各研究組管理未發表資料,並在研究組內共享,也可以將內部管理資料進行線上釋出與公開。平臺為所有公開資料提供基於Persistent Identifier (PID) (http://www.pidconsortium.eu/)系統的唯一PID號,用於在學術期刊的公開發表及後續資料引用及分析。此外,平臺還整合了超過90個線上資料分析工具,提供針對擴增子序列、全基因組序列等4套分析工作流,所有的分析工具和工作流都是以web方式使用,方便微生物領域使用者快速掌握及使用。使用者可以通過該平臺方便地實現資料管理、資料分析、結果展示和資料釋出等一系列服務,平臺也將為使用者提供全過程的使用支援,歡迎國內外使用者使用該平臺。

微生物資源與大資料中心史文聿、亓合媛為本文共同第一作者,微生物資源與大資料中心及世界微生物資料中心主任馬俊才及中心吳林寰博士為本文共同通訊作者。本研究得到中國科學院重點部署專案《人體與環境健康的微生物組共性技術研究》、國家重點研發計劃《益生菌健康功能與基於腸道微生物組學的食品營養代謝機理研究》、中國科學院A類先導專項《地球大資料》、中國科學院資訊化專項微生物領域雲等專案的支援。

Reference

原文連結:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gky1008/5144955

《核酸研究》發表中國微生物組資料平臺
https://mp.weixin.qq.com/s/tgVTGOrlm9Ydv7Juskw7jg

猜你喜歡

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外2400+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
image

學習擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

image

點選閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA