微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組--轉載
轉載:https://mp.weixin.qq.com/s/xsL9GuLs7b3nRF8VeRtinQ
建立在高通量測序基礎上的微生物群落研究,當前主要有三大類:基於16S/18S/ITS等擴增子做物種分類的Metataxanomics、鳥槍法打斷全基因組DNA序列的Metagenomics和基於mRNA信息的宏轉錄組方法Meta-transcriptomics。
16S,也即是我們通常所說的微生物多樣性,是一種相對快速和經濟適用的方法,但是PCR導致了偏好的產生,這就降低了註釋準確度。此外,由於原核、真核生物的“分類標簽”完全不同,即使細菌和古菌的16S也相去甚遠,以進化快著稱的病毒更難以捕獲。宏基因組有效避免了擴增偏差,由於是直接打斷,理論上不限制物種(細菌、真菌、古菌、真核生物等,事實上當前宏基因組測序多還是以細菌為主),可能組裝獲得新基因乃至新物種信息,但根據取樣情況可能存在少量或大量的宿主汙染,因需組裝,數據量要求大,成本貴、周期長。宏轉錄組的好處是,跳出了DNA層面的束縛,可以獲得實時活躍的、真正對群落有貢獻的基因和通路,然而mRNA不如DNA穩定,此外多純化和擴增的步驟也可能引入錯誤。
表1 三種技術的選擇策略
關於16S的全流程,我在生信者言的千聊直播間裏和大家做過系列課程分享,ppt可聯系小秘書Anymore(微信號:genegogo007)獲取,另外,專門針對16S的生信分析,也給大家做過一個詳細的工具單和點評:《9個模塊+40余款軟件+老司機辣評 | 16S信息分析流程軟件和數據庫合集》。這裏就不具體展開講了。
下面來說說大家關註的宏基因組。宏基因組這部分,生信者言李木子童鞋也曾經給大家做過系統梳理和點評:《精選30余款宏基因組分析軟件,來自老司機的使用經驗總結(上篇)》、《精選30余款宏基因組分析軟件,來自老司機的使用經驗總結(中篇)》、《精選30余款宏基因組分析軟件,來自老司機的使用經驗總結(下篇)》、《句句幹貨!一文讀懂宏基因組binning》。
在17年發表於Briefings in Bioinformatics的一篇題為《A review of methods and databases for metagenomic classification and assembly》的綜述中,也有很多可參考的思路和軟件匯總。
宏基因組經典流程:環境微生物樣本--Total DNA提取--文庫構建--上機測序(經典短讀長: illumina系列;長讀長選擇: PB, ONT)--數據質控(去除低質量和接頭等,去除宿主基因組等幹擾信息)--宏基因組組裝--Contig Binning--基因組重建--分類註釋(可基於reads、contig、bins、還原出來的基因組做物種註釋)--其他下遊分析。
質控常用工具列表:
分類註釋工具匯總:
組裝和binning工具匯總:
嫌軟件太多、想要主流軟件推薦和評測的童鞋,可以轉回去看上一段給大家寫出來的來自李木子老師的流程軟件評測文。
此外,再給大家推薦兩個流程集成軟件,MetAMOS ( https://github.com/marbl/metAMOS ) 和MOCAT2 ( https://github.com/mocat2/mocat2 ) ,有興趣的小夥伴可以試用下。
下面我們再擴展一下,如何從宏基因組數據中鑒定病毒序列?15年PeerJ上介紹了一個適用於組裝後contig集中病毒序列識別的工具--Virsorter ( https://github.com/simroux/VirSorter ),同年發表在Nucleic Acids Research上的另一篇文章提出了一個能把細菌和病毒序列分別識別鑒定出來的軟件--GOTTCHA ( Genomic Origins Through Taxonomic CHAllenge)。16年Microbiome上又報道了一款比Virsorter更適合短contig、真陽性更高的軟件--VirFinder ( https://github.com/jessieren/VirFinder ),這塊軟件主要通過利用細菌和病毒在Kmer上的差異將病毒從宏基因組序列中抽離出來。此外,宏病毒組也有流程集成類軟建,如16年發表於BMC genomics的ViromeScan ( https://sourceforge.net/projects/viromescan/ )和15年發表於Scientific Reports上的VIP ( https://github.com/keylabivdc/VIP )等。
再說說宏轉錄組,東拼西湊的日子不好過,現在宏轉錄組也迎來了自己的專屬軟件--IMSA+A ( https://github.com/JeremyCoxBMI/IMSA-A )。IMSA+A在17年1月發表於Microbiome,是一種可應用於任意讀長宏轉錄組學數據、可高效在同一份樣品中鑒定出細菌、真菌、病毒的準確的分類分析的方法。
事實上,在微生物組學研究中,往往不會只使用一種檢測方法,多組學聯用幾乎是各大研究論文必備殺器。宏轉錄組的單獨應用就更少,多需和宏基因組結果結合起來分析。現在的方法多是各組學單獨分析,從基因集和功能註釋結果做比較,但這樣其實並未解決不同組學天上地下十萬八千裏的誤差,算作聯合分析也比較牽強。
16年底,盧森堡大學Paul Wilmes發表於Genome Biology的一篇Method介紹了一款神器--IMP。IMP把整合宏基因組和宏轉錄組40多個工具整合在同一個平臺上,使用 docker engine 驅動以確保多系統的兼容性和可重復性。IMP重復性好,同時非常靈活方便,適用於很多宏基因組plus課題,而且相較MOCAT和MetAMOS能提供更多目標基因,給後續其他組學(如宏蛋白組學)研究提供更好基礎。
在當年的冷泉港會議上Dr. Paul Wilmes也做了多組學聯合分析(MuSt)的工具流程(IMP)的報告,有興趣的小夥伴可以測試下,IMP的home在這裏:http://r3lab.uni.lu/web/imp/。
微生物組學研究正處在井噴期,研究工具也更新換代的很快,這裏總結的,僅可算滄海一粟。歡迎大家留言回復你的使用偏好和心得,或來微信討論群裏一起頭腦風暴!
參考文獻:
1. A review of methods and databases for metagenomic classification and assembly.
2. MetAMOS: a modular and open source metagenomic assembly and analysis pipeline.
3. MOCAT2: a metagenomic assembly, annotation and profiling framework.
4. VirSorter: mining viral signal from microbial genomic data.
5. Accurate read-based metagenome characterization using a hierarchical suite of unique signatures
6. VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data.
7. ViromeScan: a new tool for metagenomic viral community profiling.
8. VIP: an integrated pipeline for metagenomics of virus identification and discovery.
9. A fast and robust protocol for metataxonomic analysis using RNAseq data.
10. IMP: a reproducible pipeline for reference-independent integrated metagenomic and metatranscriptomic analyses.
微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組--轉載