1. 程式人生 > >Nature:地球微生物組計劃首發成果

Nature:地球微生物組計劃首發成果

Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J,Locey KJ et al (2017). A communal catalogue reveals Earth’s multiscalemicrobial diversity. Nature.

文章簡介:

我們對微生物世界的重要性和多樣性的認識日益增強,然而對它們的基本結構卻認知有限。近年來,基因測序領域取得了一系列新進展。但由於缺乏標準化的分析方法,常用分析框架又存在諸多缺陷,使微生物組的研究受到了一定限制,進而制約了人們對環境微生物基本結構的認知與發展。本文作者對地球微生物組計劃(EMP)中數百名研究人員收集的微生物群落樣本進行了元分析。相應的說明及新的基於精確序列而非OTU聚類的分析方法,將增強多項研究中對於細菌和古菌的核糖體基因序列的分析,並將多樣性的探索推向前所未有的規模。其結果為進一步深化微生物組研究作出了有益嘗試:一是建立了環境微生物基因序列參考資料庫,為深入研究未知環境的微生物組構成提供了資料基礎和參考依據; 二是建立了微生物基因資料框架,為優化完善地球微生物多樣性的描述模式做出了積極探索。

方法介紹:

1.樣品收集

EMP向全球科學界徵集環境樣本和相關資料,跨越不同的環境,不同空間、時間和物理化學共變。來自97個獨立研究的27751個樣本代表了不同的環境型別(圖a)、地理位置(圖b)和化學反應。所有樣品進行了DNA提取和測序,並對在整個資料庫的細菌和古菌部分進行了分析。
image
圖1. 環境型別和樣品來源。
a. 地球微生物組計劃本源(EMPO)分為三級;從低到高分別為微生物環境(level3)、動植物和土鹽分(level2)、自由生物與宿主相關(level1)。共使用23828個高質量樣品,詳細方法見網址:http://www.earthmicrobiome.org/protocolsand-standards/empo

.
b. 全球範圍的樣品來源,來自7大洲的43個國家,21種生態群落,92種有特點的環境和17個環境。

2.DNA提取,PCR擴增,測序和序列預處理

1).DNA 提取使用 MO BIO PowerSoil DNA extraction kit試劑盒。

2).PCR擴增使用16SrRNA V4區域上的配對引物的515F-806R。

3).測序使用Illumina HiSeq或MiSeq測序平臺。

4).測序所得資料使用QIIME 1.9.1 script split_libraries_fastq.py拆分序列並以預設引數進行質量控制隨後生成FASTA序列檔案。

3.序列標記、OTU篩選以及群落分析方法

考慮到與植物相關的樣本以及無宿主影響的樣本中,三分之一及以上的序列不能與現有的rRNA資料庫匹配,該研究中使用了一種無需參考序列的方法,Deblur,來去除錯誤的序列並提供了單核酸精度上的sOTU(sub-OTU),該文章中稱為“標記序列”(tag sequence)。由於早期EMP計劃中的測序長度為90bp,為了將不同時期的序列結果統一起來,進行比較,該研究將所有的序列都切除到了90bp,相應的結果也輔助說明了90bp,100bp和150bp等不同長度不影響研究結果。在與參考資料庫(Greengenes 13.8 和Silva 128)的全長序列進行比對時,使用VSEARCH工具來全域性比對,並要求100%相似性。

對於90bp的Deblur結果,每個樣本均隨機抽取了5000個觀測到的序列進行分析微生物群落的alpha多樣性(observed_otus, shannon, chao1, faith_pd)和beta多樣性(基於UniFrac距離矩陣,進行PCoA分析)。

16S rRNA基因拷貝數的計算:基於PICRUSt 1.1.0的命令列指令碼“normalize_by_copy_number.py”,將每一個OTU的丰度除以相應推測出的16S rRNA基因的拷貝數。

隨機森林的方法對樣本進行分類分析:針對Deblur 90 bp 結果中2000個樣本,使用隨機森林分類樹的方法,將不同環境下的樣本劃分至相應的環境標籤中。在方法中使用了R語言下的caret和randomForest包。

SourceTracker分析來確定tag sequence在多個環境樣本中的分佈程度。該分析利用Source Tracker 2.0.1來完成。在分析之前,每一個樣本的序列總數均稀釋至1000。

Deblur演算法簡介:

1). 將樣本中序列進行統計個數並由大到少依次排列,依次記錄reads ri,counts ci,i = 1,2,…Nreads,ci依次遞減。以i =1為例,假設 c′1 為 r1 在初始樣本中的真實個數,由於測序過程中的一些錯誤,c′1 < c1,α是測序過程中出現錯誤的平均概率,為了得到的 r1 的真實個數,進行以下計算:c′1 =c1/(1-α)

2). 在增加c1之後,需要降低相應的其餘序列的個數,因為在該演算法中,假設r1測到的真實個數降低,是由於被誤測成了其餘序列。因此這裡選用在不同Hamming距離(即mismatch,dik)下的錯誤率 β(dik) 來估計其餘序列被測成r1的個數,以此來校正不同序列在測序過程中的真實個數。以 rk 為例,1 < k< Nreads,被誤測成r1的序列的個數應該是:ck = [1-β(dik)]c′1

3). 重複上述過程,i = 1, 2,…Nreads,i < k< Nreads,依次校正各條序列的真實個數。

備註:不同mismatch下的錯誤率是基於多個Miseq和Hiseq測序結果的收集起來的統計值。

4. 多樣性分析

通過Greengenes資料庫建樹、UniFrac距離計算,用QIIME進行alpha-多樣性(圖a)分析,richness與緯度、pH和溫度的相關性,beta-多樣性(圖c)的分析,以及16S rRNA基因平均拷貝數的計算(圖d)。
image
圖2. Alpha和Beta多樣性,以及預測的16S rDNA拷貝數。
a. 群體內Alpha多樣性觀察長度為90-bp序列的豐富度,共有23828個生物為獨立的樣品。抽樣至5000條序列,黃線為組均值,發現自由生活環境比宿主依賴的多樣性高;
b. 不同pH值和溫度下多樣性變化,存在單峰分佈的規律,即多樣性先升高,再降低;
c. 按level2/3分組上色展示PC1對應PC2/3平面上樣品間距離分佈;
d. 不同群體中16S基因拷貝數在level2/3水平分佈。

5.用更為精確的分類單元代替OTU聚類

微生物生態不再需要OTU聚類,而是一個更為精確的分類單元。這樣一來,序列的特異性更高,環境分類也可以更細,使我們能夠在更精確的解析度下觀察和分析微生物分佈模式。在該文章中,作者以shannon熵值為標準,分別對tag sequence和較高的物種分類在不同環境中的分佈進行分析。可以看出,新方法中的標記序列對環境具有較高的特異性,分佈偏向於一個或幾個環境(低Shannon熵);相比之下,更高的物種分類學水平往往更均勻地分佈在不同的環境(高Shannon熵,低特異性)(圖a)。不同物種分類級別上的所有標記序列的熵的分佈也證實了這一觀點(圖b) 。為了精確衡量每個分類單元對環境的差異,作者也探究了熵隨著生態系統距離的變化而變化的模式(圖c)。

image
圖3. 巢式群體組成(展示大樣本中物種分佈規律的好方法)。
a. 樣品間出現或缺失門,x軸按豐富度排序 ,Y軸按門相對丰度排序。
b. 與a相似,只是分為動、植、鹽、非鹽四類環境下門有無的分佈;
c. 評估各級別不同環境中物種的多樣性。

image
圖4. 環境中精確序列和屬水平分類結果比較。
a. 環境中分佈的屬和400個隨機的序列相對丰度分佈,顏色標註為分類level3。
b. 不同分類級別的夏農熵分佈箱線圖;
c. 最大進化樹上點對點距離與夏農熵關係

結論:

利用精確的序列代替OTUs,可以揭示微生物生態學的基本生物地理模式,其解析度和範圍可以與目前用於巨集觀生態學的資料分析相匹敵。其結果指出微生物群落的真正原理,可以進行環境特異性更加顯著的16S rRNA序列分析。

中國科學院生態環境研究中心

環境生物技術重點實驗室

鄧曄 研究員課題組釋出

猜你喜歡

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外七十多位PI,七百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
image

學習16S擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

相關推薦

Nature地球微生物計劃首發成果

Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J,Locey KJ et al (2017). A communal catalogue reveals Earth’s multiscalemicrobia

中國微生物計劃—農作物微生物跨越轉化臨界點的現代生物技術

農作物微生物組:跨越轉化臨界點的現代生物技術 白 洋1** 錢景美1 周儉民1 錢 韋2** 1 中國科學院遺傳與發育生物學研究所 北京 100101 2 中國科學院微生物研究所 北京 100101 摘要 在微

NARMicrobiomeAnalyst微生物分析師——統計、視覺化和元分析微生物資料的網頁工具

文章目錄 微生物組分析師:統計、可視和元分析微生物組資料的網頁工具 導讀 摘要 背景 專案描述和方法 圖1. 平臺流程圖 資料上傳和處理 輸入資料 資料過濾 資料標準化

HUMAnN2人類微生物統一代謝網路分析2

關於巨集基因組常用的有參分析流程,主要是快速獲得物種組成和功能組成,之前分享了 今天再介紹來自同一作者的另一個軟體,可以一步完成功能和代謝組成。 HUMAnN2: The HMP Unified Metabolic Analysis Network 2,

0051-【科學可視】-科普中國-中國中醫與人類微生物計劃

人類微生物組計劃是人類基因組計劃的延伸,它研究的重點是通過元基因組學的方法研究人體內(表)的微生物菌群結構變化與人體健康的關係。 人體內有兩個基因組,一個是從父母那裡遺傳來的人自身基因組,編碼大約2.5萬個基因;另一個則是出生以後才進入人體、特別是腸道內的多達

Nature 全球表層土壤中微生物的結構和功能

文章目錄 Structure and function of the global topsoil microbiome 全球表層土微生物組群落結構和功能 熱心腸日報導讀 摘要 正文 **圖1.

Nature Method Rob Knight釋出Striped UniFrac演算法輕鬆分析微生物大資料

Striped UniFrac微生物組大尺度分析演算法 Striped UniFrac: enabling microbiome analysis at unprecedented scale Nature Methods, [IF 26.919], co

Nature Reviews擁抱未知解析土壤微生物的複雜性

Fierer N. Embracing the unknown: disentangling the complexities of the soil microbiome. Nature Reviews Microbiology, 15:579-590 (20

Nature擬南芥微生物功能研究1培養學—高通量細菌分離培養鑑定

背景介紹 Bai, Y., et al. (2015). “Functional overlap of the Arabidopsis leaf and root microbiota.” Nature 528(7582): 364-369. 本文是20

NARgcMeta——全球微生物資料儲存和標準化分析平臺

文章目錄 gcMeta全球微生物組資料儲存和標準分析平臺 導讀 摘要 正文 圖1.使用者資料管理、分析及釋出流程 圖2.資料庫結構 表1.平臺內建工具 圖3.使用者介面展示

Microbiome在人工腸道中建立動態線性模型指導設計和分析微生物研究

文章目錄 在人工腸道中建立動態線性模型指導設計和分析微生物組研究 導讀 摘要 主要結果 圖1. 技術變異掩蓋了微生物動態的模型 圖2. 10個最高丰度細菌科隨時間變化 圖3. 生物和技術變異的結

QIIME 2可重複、互動和擴充套件的微生物資料分析流程

文章目錄 QIIME2:可重複、可互動、適用範圍廣和可擴充套件的微生物組資料科學 摘要 正文 圖1. 互動式視覺化工具 圖2. 迭代記錄資料來源確保分析可重複 程式碼可用 線上方法

面試題22有序數生成BST

++ root pre sum col push_back div fin += 對於一個含有n個數的有序數組1~N,能夠產生多少種不同結果的二叉搜素樹BST? 如何生成這些不同結構的BST? 1 class Solution { 2 public: 3

51nod 1294修改數

替換 targe .com ace sca amp span oid name 51nod 1294:修改數組 題目鏈接:http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1294 題目大意:將一

《劍指Offer》題目調整數順序使奇數位於偶數前面

code ont else 指向 偶數 span cnblogs for emp 題目描述:調整數組順序使奇數位於偶數前 輸入一個整數數組,實現一個函數來調整該數組中數字的順序,使得所有的奇數位於數組的前半部分,所有的偶數位於位於數組的後半部分,並保證奇數和奇數,偶數和偶數

【劍指Offer面試題】 九度OJ1516調整數順序使奇數位於偶數前面

pen 沒有 name func hide tracking 順序 popu type 題目鏈接地址: http://ac.jobdu.com/problem.php?pid=1516 題目1516:調整數組順序使奇數位於偶數前面 時間限制:

初識vue 2.0(2)路由與

組件化 script -128 watch css image 暫時 效果 默認 1,在上一篇的創建工程中,使用的的模版 webpack-simple 只是創建了一個簡單的demo,並沒有組件和路由功能,此次采用了webpack模版,自動生成組件和路由。^_^ 在模版初始

java編程將數的第一個為最大第二個為最小以此類推

scan max can ati con clas div int pub import java.util.Scanner; public class Max_Min { public static void main(String[] args) {

用C語言實現將數A中的內容和數B中的內容進行交換(數一樣大)。

image pri 之前 es2017 sys 變量 ret 只需要 題目 之前我們已經完成了對兩個變量內容進行交換的程序,這兩道題目大同小異,不過是將兩數變成了兩數組。 可能我們會想:我們是不是需要第三個數組作為中間變量進行交換操作? 答案是no,我們只需要通過一個循環體

算法題整形數找a和b使得a+b=n

算法 組成 數字 說明 占用空間 都沒有 1-1 素數 個數字 題目: 數組 A 由 1000 萬個隨機正整數 (int) 組成,設計算法,給定整數 n,在 A 中找出 a 和 b,使其符合如下等式: n = a + b 解題思路: 1. 1000w個隨機正整數占用空