擴增子分析神器USEARCH簡介
本文中引用統計採用Google學術,統計日期截止2017年10月9日。
Usearch簡介
主頁:http://www.drive5.com/usearch/
1. Usearch是什麼?
它是超快的序列分析軟體,在序列比對、聚類、操作等多領域廣泛應用。在擴增子分析領域的OTU聚類最受歡迎,單人發文至Nature Method,而且目前已經集成了全部擴增子分析流程。截止2017年10月9日,Google scholar統計此軟體被引用5556次。
2. Usearch的優點:
- 高速序列比對與聚類;比對速度是BLAST的10-1250倍,聚類速度是CD-HIT的1-1000倍。
- 安裝方便;安裝過QIIME的人都想哭,但此軟體基本無依賴關係,超高整合的小巧工具,支援windows(大小僅1M), linux(2M), mac(1M),下載就能用。
- 對大多數使用者免費使用32位版。誰都可以用,使用不受限。
此外,該軟體的64位版收費,主要優勢是支援大記憶體處理海量資料,這麼優化的軟體僅1485
作者簡介
Edgar, R.C. 之前是研究理論物理的,發表過5篇相關文章。後來轉行到計算生物學,開發了一系列優秀的生物資訊學軟體和演算法,如多序列比對MUSCLE(引用23507次)、序列比對和聚類USEARHCH (5556)、嵌合體識別UCHIME(3779)演算法、OTU聚類UPARSE(1691)演算法等。僅此四篇文章引用近3.5萬次,有誰不服。
此人目前是獨立研究員,沒有單位。主要收入來源是出售自程式設計序Usearch 64位版(一份1485刀),同時還提供16S/ITS資料分析服務,一批資料2380刀,包括產生OTU表、分類學註釋預測、alpha和beta多樣性分析,以及10個小時售後服務,要求樣品數量小於100,資料量小於50 GB。有興趣的小夥伴可以找機會和大牛聯絡合作一把。
下載
此軟體不允許私人轉發他人使用,需要的小夥伴請自己行下載吧,僅需以下幾步點選,幾秒鐘輕鬆獲取。
免費版下載,請在主頁選擇“Download 32-bit”,或直接訪問如下連結
http://www.drive5.com/usearch/download.html
在下載頁面中:
- 需要勾選同意許可協議
- 選擇下載版本(預設為最新版10.0即可,有特殊需求的請下載指定舊版本,比如QIIME預設使用5.2.236)
- 選擇軟體使用平臺,預設為Linux,支援多選,可以一次把Linux、Windows、Mac OSX都選上,想在哪用都可以
- 填寫郵件地址
- 點選”Submit”申請,下載連結會發送到郵箱。
OTU聚類核心演算法UPARSE
Usearch的強大不是因為它是一個軟體,而更像一個平臺,有上百種功能,核心功能有著絕對的核心競爭力。OTU聚類演算法UPARSE就是其中之一:
1. 高度準確、高通量OTU聚類;
2. 人工重組微生物組實驗分析,該軟體得到的代表序列準確度和數量與真實更接近;
這演算法也被引用近1691次,被主流分析流程Mothur和QIIME同時引用,也是QIIME分析流程的預設演算法。
最新OTU非聚類演算法unoise3
本領域方法學發展比較快,目前主流的OTU聚類方法在功能研究問題比較多,而最近評估表明非聚類的演算法結果更準確,作者立馬就開發了unoise2[4],目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ,這必將成為明年的主流。我將在接下來一篇文章詳細講解它的使用、結果與聚類的比較,持續關注吧。
軟體的使用幫助
此軟體雖然只有1-2M,但功能可比很多幾百M的系統都強大,具體會分多篇文章詳細說明。
學習此軟體的擴增子分析流程,訪問幫助文件中的”Example scripts with test data”或
http://www.drive5.com/usearch/manual/pipe_examples.html ,裡面包括454/MiSeq平臺的16S/ITS共5套完整的分析流程程式碼,有需要的先去學習一下吧。
附:主流擴增子分析流程簡介
- QIIME分析流程;2010發表在Nature Method上,被引8579次,是目前比較主流的分析方法,而且持續的維護和創新,目前正在開發QIIME2。
- mothur,2009年發表目前被引用7448次,比較早接觸擴增子的人都喜歡它。
- Usearch,2010年發表在Bioinformatics,目前引用5556次;原來只是一個小小的高速序列聚類和比對軟體,目前被作者開發成了擴增子分析流程,其中的關於序列聚類的演算法UPARSE由作者單槍匹馬發表在Nature method上,被引1691次;其實QIIME的聚類和比對預設都是使用此軟體,核心演算法是目前的主流;推薦使用。
- 優點:作者一直在更新;體積小巧;安裝方便,依賴關係極少(安裝過QIIME的應該都想哭);
- 缺點:64位版收費(這麼好的軟體,收費也值得買);過去部分功能還需使用QIIME指令碼,估計現在可以全自己搞定,因為作者太強大;
Reference
- Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
- Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
- UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
- UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149
寫在後面
為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內幾十位PI,兩百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加創始人好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀如何優雅的提問學習解決問題思路,仍末解決推薦生信技能樹-微生物組版塊(http://www.biotrainee.com/forum-88-1.html) 發貼,並轉發連結入群,問題及解答方便檢索,造福後人。
學習16S擴增子、巨集基因組思路和分析實戰,快關注“巨集基因組”,乾貨第一時間推送。
系統學習生物資訊,快關注“生信寶典”