2019微生物組——擴增子16S分析和功能預測專題
在廣大粉絲的期待下,《生信寶典》聯合《巨集基因組》在2019年1月11-13日北京鼓樓推出《擴增子有參無參分析和功能預測》專題培訓第二期,為大家提供一條走進生信大門的捷徑、為同行提供一個擴增子實戰分析學習和交流的機會、助力學員真正理解分析原理和完成實戰分析,獨創四段式教學(3天集中授課+自行練習2周+再集中講解答疑+上課視訊回看反覆練習),"教—練—答—用"四個環節統一協調,真正實現獨立分析大資料。
關於學習生物資訊學分析的重要性,請閱讀《生物資訊9天速成班—成為團隊中不可或缺的人》。
課程簡介
請詳細閱讀課程簡介,如果以下內容您全精通,不必參加此培訓。
本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以帶你自己實現的分析)。從分析平臺搭建、Linux和R基礎、圖表解讀和實戰、擴增子分析標準流程、功能預測、統計分析以及各類高階分析(進化樹、網路、環境因子、機器學習等),和CNS級圖片修改排版。3天時間,老司機帶您完成自學需要3個月甚至是3年的崎嶇之路,助力您真正玩轉擴增子分析。
課程大綱
每節課1小時一個主題,理論結合實戰,學懂原理,實戰實操,全是老司機多年經驗和程式碼的無私分享。下面是課程安排,如11代表第一天第一節課,26代表第二天第六節課,41為兩週後的線上集中視訊答疑。
編號 | 主題 | 簡介 |
---|---|---|
11 | 分析平臺搭建 | Win10:git、R、Rstudio、R包、STAMP、AI等 |
12 | Linux基礎 | 簡介、優勢、常用操作、序列處理等 |
13 | R基礎 | 發展史、生物學中應用、ggplot2繪圖 |
14 | 圖表解讀 | 常用16種圖表意義、使用場景 |
15 | 結果視覺化 | 16種圖表的資料整理和線上繪製 |
16 | 發表級圖版製作 | Adobe Illustrator製作CNS標準圖版 |
21 | 擴增子介紹 | 背景知識、分析原理、流程引數詳解 |
22 | 擴增子分析流程 | Vsearch+Usearch跨平臺最新分析流程 |
23 | STAMP統計分析 | 玩轉樣本篩選、差異比較和統計圖表儲存 |
24 | 多樣性分析 | R語言實現多樣性、物種組成和差異比較圖表 |
25 | QIIME2 | Linux平臺QIIME2最新私人定製分析流程 |
26 | 網路分析 | 文章解讀,實戰網路分析和網路屬性比較 |
31 | PICRUSt功能預測 | KEEG功能組成預測和統計繪圖 |
32 | Faprotax,Bugbase | 細菌元素迴圈和表型層面功能挖掘 |
33 | 機器學習 | 隨機森林分類迴歸,重現兩篇Nature分析 |
34 | 進化分析 | 序列篩選、比對、進化樹構建和美化 |
35 | 環境因子 | 文章解讀,高分文章重現 |
36 | 研究熱點展望 | 總結、把握研究熱點、展望技術發展趨勢 |
37 | 考試50題 | 自評學習效果、知識點回顧 |
41 | 答疑-線上 | 答疑、考試內容串講 |
教程內容簡介如下:
一、生信基礎
還在為沒有Linux伺服器而無法分析擴增子資料而苦惱嗎?其實你的個人電腦就是擴增子分析的利器。易生信團隊獨創實現了跨平臺的分析流程,在大家的Windows筆記本上可以輕鬆實現擴增子領域的絕大多數分析,第一節課帶你輕鬆在自己的本本上搭建資料分析平臺。
圖1. 易生信首創基於Win10優化的擴增子分析流程,筆記本秒變大資料分析平臺
推薦使用Windows10系統,8G記憶體分析更快更流暢。 我們也會帶大家在Linux上配置整個分析流程 (Mac跟Linux類似,無做區別對待,但部分軟體可能安裝方式不同,未做深入測試,不建議參加培訓時使用)。
同時講解生物學家必要掌握的Shell和R語言基礎知識,保證你高效、穩定的使用擴增子分析平臺。
圖2. Shell和R學習大綱,首創Rstuio中滑鼠點選可完成Shell指令碼和R語言分析,既開啟生信的大門,又不會增加生物學家時間成本
二、圖表解讀和繪製專題
針對很多老師缺少系統的生信背景,看不懂分析文章圖表,更對繪製各式圖表手足無措的情況。
我們推出過如下兩個系列,共16篇原創文章,對8種圖型進行講解和R語言繪圖。
但這些只是入門,在培訓上,我們將結合發表高水平文章,進一步講解16種常用分析圖的原理和使用範圍,讓你不僅讀懂圖,更知道如何應用於自己的研究,並親自輕鬆完成繪圖。
針對大家使用R語言繪圖學習時間成本較高的問題,易生團隊針對常用16種圖開發了免費繪圖網站,一鍵出圖,更可滑鼠點選引數修改圖形的個性樣式。
圖3. 16種常用圖形的表達的意義、使用場景和繪製。可使用我們的線上繪圖工具 <www.ehbio.com/ImageGP>實現。
為了讓各種統計圖片實現出版級的組圖,特開設了一節Adobe Illustrator修圖排版課,講述基本使用技巧,輕鬆掌握精髓,讓你文章圖版檔次向CNS看齊,輕鬆成為實驗室的修圖和拼圖達人。
圖4. AI排版本子圖為CNS出版級組圖示例(Science, 2016封面文章)
三、擴增子理論和統計分析流程
圖5. 典型的擴增子結構模型圖
- 擴增子背景知識
- 背景:國際微生物組(人類HMP、環境EMP)計劃、中國微生物組計劃
- 研究物件:人、動物、植物、環境
- 研究方法:培養組學、擴增子測序 (最常用)、巨集基因組、巨集轉錄組、巨集蛋白組、巨集代謝組、巨集表觀組等
- 巨集基因組學的研究熱點:微生物多樣性、巨集基因組、培養組、腸菌與疾病、MWAS
- 擴增子基本原理:細菌/古菌 16S、真菌18S/ITS結構、引物選擇等
- 實驗設計:樣品製備和建庫中的誤區
- 文章套路:擴增子分析SCI文章的物種組成、功能預測常用套路
- 主流方法優缺點比較:QIIME、QIIME2、mothur、Usearch-unois3、dada2等方法
- 擴增子分析流程
之前我們釋出了基於QIIME(引用12000+)+Usearch(引用8000+)組合的史上最詳細中文擴增子分析流程,累計閱讀60000+。
同時在去年也推出了2018年正式接檔QIIME的最新流程QIIME2的官方中文幫助文件,累計閱讀5萬+。
想使用QIIME和QIIME2的小夥伴可直接點選上方連結學習。課上也會帶大家用伺服器操作,分享最新私人定製流程。
但上面兩種分析流程仍有很多缺點,如需要Linux伺服器,安裝和操作複雜,學習時間成本過高等不足。
易生信團隊組織巨集基因組、生信寶典的一線生信專家,為廣大生物學家,定製了一套安裝部署簡單、滑鼠點選程式設計、支援主流作業系統、學習成本低、又靈活的擴增子分析流程,助力生物學家輕鬆分析資料,更專注生物學現象的挖掘。
圖6. 擴增子分析流程金字塔,資料量從下向上逐漸減少
- 擴增子流程如下:
- 實驗設計的編寫
- HiSeq/MiSeq資料的質控:fastqc, mulitqc
- 質控流程:雙端序列合併、切除barcode和引物、質控
- 生成OTU/ESV:序列去冗餘、聚類clust_otu(OTU)或去噪unoise3(ESV, Exact Sequence Variants)
- OTU篩選:嵌合體生成原理及去除方法、去除線粒體、葉綠體和宿主非特異擴增汙染、生成代表性序列和OTU表
- 物種註釋及進化樹構建
- 常用Alpha多樣性指數計算
- 常用Beta多樣性距離矩陣計算
現在你可以在自己筆記本或桌上型電腦上輕鬆分析擴增子啦!並且支援最新的非聚類OTU的ESV方法,想自己親自分析的朋友,快來北京參加9月擴增子專題培訓班吧!這是今年最後一期,錯過就要等明年了。
引用過千次的STAMP繪製Extended barplot大家應該很常見,帶你半小時速成。LEfSE引用超1700次,它的柱狀圖和圈圖隨處可見,但伺服器超級難用,即上傳痛苦,又要久等。我們為學員定製了專用國內伺服器,隨時為你服務。有伺服器的夥伴還可以獲得安裝和使用的教程,在自己的伺服器上用,不受網路和地域限制自己隨時隨便用。
圖7. 常用巨集基因組統計作圖軟體STAMP & LEfSe
四、可重複計算統計繪圖
對於可重複計算要求比較高、對細節有進一步分析要求的學員,我們還會教大家當前最頂級的R語言統計分析框架,讓你零基礎輕鬆實現可重複計算,滿足頂級文章的程式碼公開和網頁可重複要求(這些資源在生信公司是價格幾十萬的絕密流程程式碼,一般人是沒有機會見到的)。
圖8. 數10種高質量圖的R原始碼實現可重複計算
在自己電腦上輕鬆修改輸入檔案、引數。可全程記錄分析過程,保證從資料到發表級圖形的可重複計算,讓團隊分析水平上升到大牛級別。
- Alpha多樣性各種指數:Shannon、Chao1、Observed OTU、PD whole tree等,並配合Anova,LSD統計;
- Beta多樣性各種距離矩陣:Bray Curtis、Jaccard、Weighted Unifrac、Unweighted Unifrac等結果的樹狀圖、箱線圖、散點圖展示樣品間差異;並配合Adonis, Anosim, MRPP統計
- 有監督的主座標軸分析 (CCA/RDA),展示組間差異,anova.cca統計
- DESeq/edgeR/t.test/wilcoxon統計組間差異,計算Pvalue和FDR
- 熱圖、曼哈頓圖、火山圖展示兩組間比較差異分類單元或OTU/ESV
- 韋恩圖、三元圖、網路圖展示兩組及多組間相同與不同
五、功能預測和機器學習
學習PICRUSt分析原理、常用結果展示樣式及文章解讀。實戰進行官網、本地、線上分析,並對結果進行整理,方便STAMP、LEfSe以及R分析。下圖為預測結果經STAMP快速分析的展示的結果,學員可以在老師帶領下35分鐘內完成上以分析。
圖9. 功能預測結果使用STAMP統計和視覺化
對於不滿足用KEGG功能預測和統計結果的小夥伴,我們還進一步講解FAPROTAX (2016, Science)的分析,適合研究環境、元素迴圈的同行;此外還有BUGBASE分析,實現細菌代謝、厭氧性、革蘭氏分類等表型預測,適合醫學領域的同行使用。
圖10. 重現兩篇Nature文章機器學習分類和迴歸分析
上圖:Wilck-2017-Nature,採用Adaboost進行分類和測試集驗證準確率。
下圖:Subramanian-2014-Nature,採用隨機森進行迴歸、交叉驗證、測試集檢驗模型準確率和熱圖展示特徵OTUs時間序列變化。
高分文章離我們並不是遙不可及,在你的本本上,1個小時輕鬆重現每一個子圖的分析和繪製。讀懂這兩類分析的結果。
六、網路和環境因子分析
圖11. 兩組網路比較、以及網路屬性比較(Wang-2018-Gut)
還以為隨便畫個網路就能當文章的主圖嗎?這個時代早已成為歷史。現在的高分文章,至少要求多網路比較,標配網路屬性比較。在這裡有微生物所微生物網路研究方向的博士,帶你進入網路的世界,四步走實現即美觀又有意義的網路分析:讀懂網路——繪製單個網路——繪製多個網路——網路屬性比較及視覺化。這麼前沿的技術,估計世界範圍內只有這裡會教你。
圖12. 環境因子分析(Metcalf-2016-Science)
環境因子分析是很多研究的標配,常用的Vegan包引用過萬次就知道它的重要性。但平時看到的圖不是低分文章,就是不夠美觀。易生信團隊精選Rob Knight團隊2016年Science雜誌中經典環境因子分析為例,讓你的分析和視覺化一步到位,向CNS看齊。
往期精彩回顧
主講教師
主講老師包括中科院微生物所、遺傳發育所、基因組所、生物物理所等多名本領域一線技術專家。
陳同,博士,2015畢業於中科院遺傳與發育生物學研究所,生物資訊專業博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research,Stem Cells and Development等高水平雜誌以第一作者或主要作者發表文章,運營有數萬人關注的《生信寶典》微信公眾號,給你不一樣的學習生信體驗。
劉永鑫,博士。2008年畢業於東北農大微生物學專業。2014年中科院遺傳發育所獲生物資訊學博士學位,2016年博士後出站留所工作,任巨集基因組學實驗室工程師,目前主要研究方向為巨集基因組學資料分析與可重複計算。發表論文11餘篇,SCI收錄8篇。2017年7月創辦“巨集基因組”公眾號,目前分享巨集基因組、擴增子原創文章255篇,關注人數2.9萬人,累計閱讀近400萬次。
陳亮,博士。2010年畢業於魯東大學生物技術專業,2017年於中國科學院微生物研究所獲微生物學博士學位。目前就職於中國科學院微生物研究所病原微生物與免疫學重點實驗室,生物資訊和計算生物學研究組,任助理研究員,目前主要研究內容為微生物生態學、巨集基因組學等方面的資料探勘和分析。
周欣,中科院微生物碩博連續在讀博士生(5年級),曾在加拿大農業與農業食品部-渥太華研究發展中心微生物生物資訊研究組聯合培養一年。熟悉高通量擴增子和巨集基因組資料的處理及下游差異統計分析工作。目前主要研究方向為植物病害(土傳病害)相關的微生物組學研究。
助教團隊
十餘名中國科學院、清華、北大博士(含在讀),輪值講師和助教,輔助學員學習和矯正培訓過程中不足的點。
授課模式
本課程以講解流程和實際操作為主,採用獨創四段式教學:
- 第一階段 3天集中授課;
- 第二階段 自行練習2周;
- 第三階段 線上直播答疑;
- 第四階段 培訓視訊繼續學習;
- 實現教-練-答-用四個環節的統一協調。
培訓時間
2019-01-11 到 2019-01-13 (線下講解實戰)
每天早9點到晚6點,半封閉式教學 (最後1小時為集中討論時間,最後一天會稍微提前一些,多留出時間討論,也方便老師乘車返回)
報到時間:提前一天或者當天都可以
授課地點
北京市西城區鼓樓明德大廈 (北京市舊鼓樓大街47號院2號樓2010)。
課程價格
- 截止 2019-01-05 4500 元/人
- 名額有限,每次課程報名滿40人後自動關閉報名通道
- 提供易漢博基因科技實習機會或工作機會
課程福利
- 座位按報名並繳費成功順序從前到後龍擺尾式排序
- 贈送程式基礎課和對應課程往期視訊課一份 (http://bioinfo.ke.qq.com)
- 多人 (N,10>N>1) 組團報名並同時繳費,每人還可減免N-1百元 (最高500)
- 贈送金士頓U盤一個(32G含培訓資料和指令碼)
- 附推薦語分享對應的招生資訊到朋友圈,截圖發到[email protected] 可獲得200元生信寶典騰訊課堂課程優惠券(可拆分供多個課程使用)
注意事項 *
- 需自備膝上型電腦,推薦使用win10系統,4G以上記憶體(推薦8G)。課程實踐根據需要會提供雲端計算平臺
- 培訓班所有資料,文件為內部資料,僅供參閱,未經允許不得翻印外傳登刊
- 上課期間禁止錄音,錄影
- 成功付款的學員,若臨時有緊急事情不能到來的,可申請延期,更換後續培訓班;也可申請退款
- 若開課2周 (含) 前申請退款可退還85%費用;開課3個工作日 (含) 前申請退款退還70%的費用 (若已開發票需承擔相應手續費)
- 不可先延期再退款
更多課程的詳細介紹,請掃描下方二維碼。
複製以下連結
http://www.ehbio.com/Training/ 或
點選閱讀原文跳轉報名頁,成為實驗中不可或缺的人,趕快報名吧!