1. 程式人生 > >Nature Biotechnol: 用16S及18S rRNA全長進行微生物多樣性研究

Nature Biotechnol: 用16S及18S rRNA全長進行微生物多樣性研究

 

本文“巨集基因組”公眾號原創。 作者:舟行天下
編輯:metagenome

摘要

前段時間熱心腸先生導讀了《Nature子刊:高通量&無偏差,分析微生物群落的新方法》。 文中摘要提到:1.幾十年以來細菌16S以及真核生物18S小亞基核糖體RNA(SSU rRNA)一直是研究微生物多樣性以及進化生物學系統發育樹構建的標準標記基因。然而,由於SSU rRNA 資料庫收錄的全長SSU都是一些研究較多的生態系統中的物種,而且SSU引物具有偏好性並且在PCR擴增中會有嵌合體的產生,會導致在研究中對樣品中的實際多樣性產生偏差。2. 本文中作者通過結合poly(A)的尾巴以及SSU的反轉錄序列高通量的合成了高質量的全長SSU序列。用該方法分析7種環境樣本的微生物群落構成,得到超過一百萬個SSU rRNA序列,涵蓋細菌、古細菌和真核生物,原始錯誤率約0.17%,與鳥槍法RNA測序相比無明顯偏差;3. 對比現有SILVA資料庫,觀察到約半數新多樣性,並且其中包含了幾個與古菌Asgard Archaea 門水平相關的新譜系。 4. 該方法可使現有參考資料庫以數量級方式擴充套件,幫助完善對全球微生物的分類和編目,以及生命之樹的構建。 小編覺得本文還是很有指導性意義的,本文中我們將對此文進行詳細的解讀與讀者共享。

前言

在1990年兩個研究團隊第一次報導了從複雜環境樣品中獲得的一些16S rRNA序列,第一次打開了地球上巨大的,未知的微生物世界的大門。近些年來,SSU rRNA 的短片段測序已經成為了大多數微生物生態學研究的的骨幹。然而,決定這些SSU rRNA 片段是否有用很大程度都取決於構建一個高質量的SSU rRNA資料庫。在過去的20年中,近200萬條的全長SSU序列被上傳到了SILVA資料庫中。這些序列只代表了地球微生物多樣性的一部分,據估計地球上微生物物種多樣性高達100萬到1000萬種之間。大多數全長的SSU序列都是通過PCR擴增,克隆然後通過一代焦磷酸測序獲得的,但這種方法成本極高,並不適用於構建生命之樹的等大規模測序計劃。由於技術條件的限制,全長的SSU (1,400–1,900 bp)片段不能通過成本低廉的二代短讀長高通量測序獲得。三代單分子測序具有超長讀長的優勢,但也具有測序錯誤率高,通量低,價格貴等缺點。結合基於CCS Reads 的原始錯誤自我校正方法使得三代長讀長測序 (PacBio和Oxford Nanopore) 能夠在錯誤率為0.5%的技術條件下實現對16S全長進行測序。此外,高質量的16S全長序列也能通過分子標記Illumina的短讀長序列合成得到。儘管目前已經取得了很多進展,但是長讀長的技術還是未能實現高的通量,並且還很依賴於特定引物來擴增SSU片段,這也限制了我們去發現新的物種多樣性的能力,尤其是對於古菌和真核生物來說更是缺少好用的通用引物

實驗設計

為了避免全長SSU序列引物的偏好性,作者結合分子標記合成長讀長技術,優化了產生全長SSU的方法。全長的SSU分子片段從提取的總RNA中選擇並富集起來,並通過通過poly(A)尾巴以及單鏈捆綁的方法轉變成雙鏈的cDNA(圖1a和附圖1)。在第一鏈和第二鏈cDNA合成過程中,單獨的SSU分子的兩端都被特殊的分子片段進行標記。這種被標記的長序列能用於進行短讀長測序的文庫製備,從而使得最終的單獨的序列都能根據原始的臨時標記分子而被標記上。通過把短讀長的序列通過分子標記放到不同的bins中,通過de novo 的手段能夠各自單獨的bins組合成全長的SSU序列。此外,作者還開發了一個基於引物的版本使得不使用引物的優勢能直接的展示出來(附圖2)。

二代測序全長SSU方法

image 圖1. 全長SSR rRNA測序。為方便手機閱讀,我們會對每個子圖分別放大和詳細講解。 (a) 如何從群體RNA來準備全長測序。主要分為以下三個步: 1. RNA處理過程 image

  • 採用凝膠電泳按片段大小選擇富叢集體RNA中SSU(SSU為RNA電泳圖的最大主峰,圖中紅色區域);
  • 然後基於SSU共有的polyA來後成cDNA。這個特異的PolyT引物包括3個額外特殊序列結構,分別為引物結果位點,唯一序列標籤和引物結合位點;
  • 採用分子連法加入接頭用於cDNA第二鏈的合成所需的通用引物結合位點;再使用含有另一個引物結合位點和唯一序列標籤的引物合成cDNA的第二鏈。
  • 這樣我們獲得雙鏈cDNA,它包括全長SSU,雙端包括雙引物結合位點和標籤序列。 2. 文庫製備和測序 image
  • 雙鏈DNA片段進行擴增,並再次使用電泳進行片段選擇,去除(反轉錄)不完整的SSU;
  • 再次擴增,使每一個唯一序列至少擴增10000次(至少2的15次方);
  • 擴增的文庫分為兩部分,主要的部分用於建立測序文庫(Read-tag library),採用Illumina的標準Nextera tagmentation片段化建庫;小部分用於建立接頭文庫(Linked-tag library),先進行自身環化。
  • 測序文庫片段化的結果再進行新增接頭,PCR擴增,及高通量測序獲取SSU序列;而接頭文庫利用inner引物擴增及測序,獲取成對的標籤可用於確定每個序列片段的來源(傳說中的binning)。 3. 資料分析 image
  • 採用接頭文庫來確定哪 些測序結果來自同一分子;
  • 同來自同一分子的序列進行分箱(binning,巨集基因組中用了好多年的技術終於反向應用於擴增子了,高!)
  • 對分箱的序列進行獨立拼接獲得SSU的全長序列;
  • 最後進行接頭切除,SSU篩選,和HMM結構域預測的方法對序列進行分類,如細菌、古菌和真核生物。 為了評估本研究方法的錯誤率以及嵌合體數量,作者用Escherichia coli MG 1655, Bacillus subtilis str. 168和 Pseudomonas aeruginosa PAO1 這幾種菌的混合群落進行了測試,這幾株菌的16S rRNA 的拷貝數量4–10×,拷貝位置從0-19不等,並且有高達1.3%的種內序列變異度。在一個Illumina MiSeq Run 中,它們共得到了10,575 條長度超過1200 bp的16S全長序列(Fig. 1b),平均的測序錯誤率為0.17%,嵌合體比例為0.4%(Fig. 1c)。這個測序錯誤率與PCR反應時的Taq酶的錯誤率基本一致。而且0.4%的嵌合體的比例大約比傳統的基於PCR反應的嵌合體比例低50倍。這種低錯誤率使得研究者能把所有16S全長序列註釋到它們的操縱子中去,這也是我們方法優勢的例證。有趣的是,對B. subtilis來說,三個操縱子(rrnI, rrnH and rrnG)並不表達(通過RNA-seq驗證)。這三個操縱子在基因組中距離很近,並且被同一promoter調控。作者為了展示他們的方法在複雜的環境樣品中的應用,作者通過對7個不同的環境的19份樣品進行了多個MiSeq 和 HiSeq Run的測序,拿到了2,285,691 條不基於引物的RNA序列。在一個單獨的Miseq Run中我們能拿到54,489 條1200 bp長度序列,而一個Hiseq Run中能拿到541,676 條1200 bp長度序列。這其中SSU 佔總數的24-76%,LSU佔剩下序列的絕大多數。由於在測序之前使用了SSU富集的方法,結果LSU序列的相對丰度如此之高是之前未預料到的 (圖1a)。然而這種現象在之前也發現過,很可能是由於LSU片段的長度和SSU類似,從而汙染了富集的序列。LSU片段最初是在提取的過程中從降解的RNA獲得的,由於環境壓力等因素導致了其原位降解,而且大多來自細菌以及低等的真核生物的裸露的核糖體RNA中。 作者總共從7個不同的環境樣品中獲得了985,266條primer-free的全長16S序列。而用我們的基於引物的擴增方法,我們還額外獲得了477,055條16S全長序列。為了拿到高質量的SSU rRNA的OTU,作者以97%的相似度將所有序列與SILVA資料庫(SILVA SSU Ref v. 128)進行比對。共拿到了44,902個細菌OTU,去掉singleton 之後還有31,125個OTU剩餘。這些OTU中含有目前已知的75個細菌門中的65個 (圖2a, 附圖4和附表4)。並且通過與SILVA資料庫進行比對,發現了大約有58%的OTU與SILVA差異度大於97% (圖2b和附表5)這意味著環境中還有大量的新物種還未被人們所發現。發現新相似度低的OTU的比例很大程度上都和生態系統的特異性相關,比如在深海沉積物中發現新OTU的比例大概為67%,而在人體的腸道中發現新OTU的比例大約為40%image 圖2. 生命之樹中覆蓋率。

本研究中作者一共獲得了61,266條古菌全長16S序列,這比目前整個SILVA資料庫中的古菌序列還多(39,138 sequences > 1,200 bp)。通過聚類之後,共拿到了3,410個古菌的OTU,去掉singleton之後還剩2,197個古菌OTU。作者還獲得了70,883,條真核生物18S序列,這些序列共聚類得到了415個非singleton的OTU。而且這些OTU數量都是經過保守估計獲得的,因為18S rRNA的全長有將近2000bp,這個長度將是本技術測序長度的上限。這些全長的18S序列只佔測序產生序列總數的55%,而對於細菌和古菌來說這一比例分別是90%和94%。 作者還評估了在研究複雜微生物群落常用的SSU 的PCR引物的覆蓋率,通過使用97%的相似度進行聚類。這將有助於估算使用SSU引物進行PCR擴增造成的多樣性丟失的比例。正如作者所預料的,多樣性丟失的比例和樣品與引物的結合相關。例如,16S通用引物27F/1492R丟失比例約為8.5–14.7%。這個發現也與最近發現的在巨集基因組測序中的引物偏好性一致,有研究者發現用傳統的PCR擴增的方法總會丟失掉9.6%的細菌多樣性。 作者為了估計他們的非引物方法的物種偏好性,作者對三個用傳統的RNA-seq測序的文庫樣品(沉積物,土壤和人類腸道)進行了測試,並將獲得的資料和RNA-seq資料進行了對比。由於目前還沒有非常完整的SSU資料庫存在,所以潛在的偏好性是通過對比能匹配到SILVA資料庫的RNA-seq序列數來估算的。對細菌來說,大約有3.7-6.6% 的RNA-seq獲得的假定SSU不能匹配到非基於引物的測序方法中,稀釋曲線顯示這種多樣性的不足主要是由於測序深度不足造成的。所以在這些環境樣品中作者未檢測到明顯的引物偏好性。 在本研究中,作者通過序列相似度比對細菌和古菌資料庫,在一些很具有代表性的門,比如Proteobacteria, Patescibacteria / Candidate Phyla Radiation (CPR)和古菌門 Asgard Archaea發現了大量的新的綱,目,科等分類單元。有趣的是,系統發育分析顯示幾個位於系統發育樹底部的古菌分支並不與目前SILVA已知的任何古菌分支聚在一起,而是單獨聚成幾支(圖3)。 image 圖3. 古菌域中覆蓋率。 這些新OTU序列相似度與目前已知古菌門水平的相似度為75%。系統發育分析顯示這些序列屬於Asgard Archaea這個超級古菌門中。想要解決這些序列的系統發育問題還需要獲得更多的相關的序列。Asgard Archaea古菌門通常是被作為真核生物的祖先,所以重建它們的系統發生關係將有助於解決生命進化的重大科學問題。其實解決生命進化之間關係的問題最好還是用全基因組進行系統發育分析,作者提供的方法只是用SSU保守序列片段進行進化分析,此研究可以作為全面用基因組建樹之前的先導研究。 這種不基於引物的測序方法尤其適用於古菌這種缺少合適的通用引物的類群。比如基於引物擴增的測序方法在對深海沉積物進行研究時會丟失掉大約28-77%的古菌OTU多樣性。 作者很難用本研究獲得的序列去估算真核生物真實的多樣性,這是由於這些序列的分歧和這個門的系統發生關係並不一致。另外,使用SSU序列作為這個門的系統發育界限的方法還在發展之中,尤其是對那些單細胞真核生物來說。例如土壤中獲得的新物種大多在在原生動物Amoebozoa門,然而用傳統的方法獲得的Amoebozoa門的序列嚴重不足。由於原生動物變形蟲門(Amoebozoa)對土壤微生物群落的影響十分顯著所以提高對變形蟲門物種的認識對更好的理解土壤生態系統非常重要本研究中獲得的1,168,276 條LSU 序列要比目前整個SILVA資料庫的LSU序列還要多。儘管有的序列不是全長,但是這些序列極大地提高了依靠rRNA的原位研究的探針數量,比如依靠探針的熒光原位雜交技術將更為便捷的被研究者所使用。由於Illumina的讀長限制導致我們的技術測到的讀長上限是2000 bp,作者也嘗試用Nanopore取代Illumina,此方法雖然得到了更長的讀長但很容易產生錯誤序列。作者發現用他們自己的方法能有效校正Nanopore的測序錯誤,所以未來用這種方法可能得到高質量的全長LSU序列。未來隨著SSU和LSU資料庫的擴增,研究者們也將開發出更好的能擴增整個rRNA區域的引物。

小結

本研究作者一共得到了超過160萬條和SILVA資料庫中SSU一樣長度的SSU序列。本方法不僅現在可以用於ILLumina測序平臺而且也適用於Nanopore長讀長測序平臺。作者也期待廣大研究者使用他們的技術來快速增加SSU全長序列的數量。此方法還能夠用於研究目前瞭解很少的,沒有很好代表資料庫的特殊環境樣品。尤其是作者展望用該方法為那些目前缺少參考資料庫的類群,比如古菌和單細胞真核生物提供一個覆蓋度更高的方法。目前包括“真核生物參考資料庫”等計劃在內的一些國際計劃也在努力擴充其資料庫。最後,作者說他們的方法不僅可以用於擴充參考資料庫,而且也對任何不超過2000 bp的標記基因進行多樣性分析。 資料更為全面的SSU參考基因資料庫可以更好的為一些特殊生態型別的研究提供幫助,比如幫助擴充人類口腔微生物資料庫。高質量的生態系統或特定研究專一性的資料庫將有助於研究者設計出更好的引物以及熒光探針。比如,設計精度更高的FISH熒光探針將有效提高原位單細胞生理研究的解析度,而這對原位生態分化的研究非常重要。

寫在後面

小編讀完此文也對本文做點個人理解的解讀: 做擴增子測序你一定糾結過到底測細菌的哪個區呢,V3+V4,或者V4+V5?細菌的16S全長一共有V1-V9九個區不管選一個區還是兩個區,我們在進行物種註釋時都無法將其準確註釋到物種水平而僅僅是屬水平。這也與目前最為廣泛所有的Illumina技術特點有關,儘管其不斷髮展可以擴大其測序的通量,但其進行測序反應擴增的極限長度也不過單端300bp。目前Pacific 和Nanopore可以實現超長讀長測序,但其測序的錯誤率還很高,只能用CCS Read(校正後正確率 > 99%) 方法進行自我校正。本文中提供的不經過PCR擴增的方法很好避免了引物偏好性對樣品中實際微生物多樣性造成的影響,而且通過加特殊標記實現了用Illumina平臺進行超長序列測序的方法。此方法尤其適用於研究一些極端環境的微生物多樣性,比如深海等等。而且隨著人們用這種方法或者傳統方法獲得的SSU等全長序列越來越多,這將極大促進研究者們對地球上未知微生物的認識。完善整個生命之樹,同時隨著大家對古菌等特殊類群微生物認識越來越全面將更有助於研究者們設計出更好的,更為通用的引物或者探針。未來大家可以廣泛的使用這些新設計的引物以及探針用於自己的研究。 就目前來說,本人覺得本文中此方法步驟過多,操作也很複雜,還是比較適用於構建一些重要的長片段生物條形碼資料庫的研究。大家如果僅僅是隻想做多樣性研究,而且一定要用全長的SSU片段或者SSU片段的話,可以考慮挑選一些偏好性小的覆蓋物種比較全面的引物進行擴增後,直接用PacBio等三代儀器進行測序。之前有些文獻報道了用三代Pacbio進行細菌16S全長測序。文章選取了27F和1492R引物對細菌16s全長進行了測序。作為微生物的重要組成部分真菌也開始了用三代測序儀進行巨集基因組測序了。在第二代高通量測序中研究者通常只能針對ITS中的ITS1片段或者ITS2片段進行高通量測序。然而這隻能給真菌的分類與系統發育分析提供很有限的物種鑑定和分類資訊。 微生物物種水平的鑑定與功能註釋是微生物學研究的核心目標之一。目前在真菌多樣性研究上已經有將近10篇文章開始用全長 SSU+ITS, 或者 部分SSU + ITS + 部分LSU 進行三代測序研究 (Bender, 2016; Melo et al., 2017)。比如,Tedersoo在他的論文中通過三代測序全面對比了目前發表的一些真菌SSU, LSU以及ITS的通用引物,並且推薦好幾對適用於真核生物的引物(Tedersoo et al., 2018)。 這些研究都是利用新技術做的一些探索性研究。未來隨著三代測序技術更加成熟,當其測序錯誤降低,通量進一步提高,未來進行微生物多樣性條形碼研究肯定會用16S全長,ITS全長等大片段來取代現在的短條形碼片段。 Reference: Karst, S. M., Dueholm, M. S., Mcilroy, S. J., Kirkegaard, R. H., Nielsen, P. H., & Albertsen, M. (2018). Retrieval of a million high-quality, full-length microbial 16s and 18s rrna gene sequences without primer bias. Nature Biotechnology. Tedersoo, L., Toomingklunderud, A., & Anslan, S. (2018). Pacbio metabarcoding of fungi and other eukaryotes: errors, biases and perspectives. New Phytologist, 217(3), 1370-1385. Schlaeppi, K., Bender, S. F., Mascher, F., Russo, G., Patrignani, A., & Camenzind, T., et al. (2016). High-resolution community profiling of arbuscular mycorrhizal fungi. New Phytologist, 212(3), 780-791. Melo, C. D., Luna, S., Krüger, C., Walker, C., Mendonça, D., & Fonseca, H. M. A. C., et al. (2017). Communities of arbuscular mycorrhizal fungi under picconia azorica, in native forests of azores. Symbiosis, 1-12.