1. 程式人生 > >擴增子分析神器USEARCH簡介

擴增子分析神器USEARCH簡介

image
本文中引用統計採用Google學術,統計日期截止2017年10月9日。

Usearch簡介

主頁:http://www.drive5.com/usearch/
1. Usearch是什麼?
它是超快的序列分析軟體,在序列比對、聚類、操作等多領域廣泛應用。在擴增子分析領域的OTU聚類最受歡迎,單人發文至Nature Method,而且目前已經集成了全部擴增子分析流程。截止2017年10月9日,Google scholar統計此軟體被引用5556次。
2. Usearch的優點:
- 高速序列比對與聚類;比對速度是BLAST的10-1250倍,聚類速度是CD-HIT的1-1000倍。
- 安裝方便;安裝過QIIME的人都想哭,但此軟體基本無依賴關係,超高整合的小巧工具,支援windows(大小僅1M), linux(2M), mac(1M),下載就能用。
- 對大多數使用者免費使用32位版。誰都可以用,使用不受限。

此外,該軟體的64位版收費,主要優勢是支援大記憶體處理海量資料,這麼優化的軟體僅1485使885。世界上許多著名的研究單位和公司都在用付費版,如JGI、Broad、NCBI、NIH、UC Davis/Berkeley、Monsanto,當然也包括我們組。

作者簡介

Edgar, R.C. 之前是研究理論物理的,發表過5篇相關文章。後來轉行到計算生物學,開發了一系列優秀的生物資訊學軟體和演算法,如多序列比對MUSCLE(引用23507次)、序列比對和聚類USEARHCH (5556)、嵌合體識別UCHIME(3779)演算法、OTU聚類UPARSE(1691)演算法等。僅此四篇文章引用近3.5萬次,有誰不服。
此人目前是獨立研究員,沒有單位。主要收入來源是出售自程式設計序Usearch 64位版(一份1485刀),同時還提供16S/ITS資料分析服務,一批資料2380刀,包括產生OTU表、分類學註釋預測、alpha和beta多樣性分析,以及10個小時售後服務,要求樣品數量小於100,資料量小於50 GB。有興趣的小夥伴可以找機會和大牛聯絡合作一把。

下載

此軟體不允許私人轉發他人使用,需要的小夥伴請自己行下載吧,僅需以下幾步點選,幾秒鐘輕鬆獲取。

免費版下載,請在主頁選擇“Download 32-bit”,或直接訪問如下連結
http://www.drive5.com/usearch/download.html
在下載頁面中:
- 需要勾選同意許可協議
- 選擇下載版本(預設為最新版10.0即可,有特殊需求的請下載指定舊版本,比如QIIME預設使用5.2.236)
- 選擇軟體使用平臺,預設為Linux,支援多選,可以一次把Linux、Windows、Mac OSX都選上,想在哪用都可以
- 填寫郵件地址
- 點選”Submit”申請,下載連結會發送到郵箱。

OTU聚類核心演算法UPARSE

Usearch的強大不是因為它是一個軟體,而更像一個平臺,有上百種功能,核心功能有著絕對的核心競爭力。OTU聚類演算法UPARSE就是其中之一:
1. 高度準確、高通量OTU聚類;
2. 人工重組微生物組實驗分析,該軟體得到的代表序列準確度和數量與真實更接近;
這演算法也被引用近1691次,被主流分析流程Mothur和QIIME同時引用,也是QIIME分析流程的預設演算法。

最新OTU非聚類演算法unoise3

本領域方法學發展比較快,目前主流的OTU聚類方法在功能研究問題比較多,而最近評估表明非聚類的演算法結果更準確,作者立馬就開發了unoise2[4],目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ,這必將成為明年的主流。我將在接下來一篇文章詳細講解它的使用、結果與聚類的比較,持續關注吧。

軟體的使用幫助

此軟體雖然只有1-2M,但功能可比很多幾百M的系統都強大,具體會分多篇文章詳細說明。

學習此軟體的擴增子分析流程,訪問幫助文件中的”Example scripts with test data”或
http://www.drive5.com/usearch/manual/pipe_examples.html ,裡面包括454/MiSeq平臺的16S/ITS共5套完整的分析流程程式碼,有需要的先去學習一下吧。

附:主流擴增子分析流程簡介

  1. QIIME分析流程;2010發表在Nature Method上,被引8579次,是目前比較主流的分析方法,而且持續的維護和創新,目前正在開發QIIME2。
  2. mothur,2009年發表目前被引用7448次,比較早接觸擴增子的人都喜歡它。
  3. Usearch,2010年發表在Bioinformatics,目前引用5556次;原來只是一個小小的高速序列聚類和比對軟體,目前被作者開發成了擴增子分析流程,其中的關於序列聚類的演算法UPARSE由作者單槍匹馬發表在Nature method上,被引1691次;其實QIIME的聚類和比對預設都是使用此軟體,核心演算法是目前的主流;推薦使用。
    • 優點:作者一直在更新;體積小巧;安裝方便,依賴關係極少(安裝過QIIME的應該都想哭);
    • 缺點:64位版收費(這麼好的軟體,收費也值得買);過去部分功能還需使用QIIME指令碼,估計現在可以全自己搞定,因為作者太強大;

Reference

  1. Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
  2. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  3. UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
  4. UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內幾十位PI,兩百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加創始人好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀如何優雅的提問學習解決問題思路,仍末解決推薦生信技能樹-微生物組版塊(http://www.biotrainee.com/forum-88-1.html) 發貼,並轉發連結入群,問題及解答方便檢索,造福後人。
image

學習16S擴增子、巨集基因組思路和分析實戰,快關注“巨集基因組”,乾貨第一時間推送。
image

系統學習生物資訊,快關注“生信寶典”
image