2019微生物組—巨集基因組分析專題研討會
文章目錄
在廣大粉絲的期待下,《生信寶典》聯合《巨集基因組》在2019年3月22-24日,北京鼓樓推出《巨集基因組分析》專題培訓第三期,為大家提供一條走進生信大門的捷徑、為同行提供一個巨集基因組分析學習和交流的機會、助力學員真正理解分析原理和完成實戰分析,獨創四段式教學(3天集中授課+自行練習2周+再集中講解答疑+上課視訊回看反覆練習),"教—練—答—用"四個環節統一協調,真正實現獨立分析大資料。
關於學習生物資訊學分析的重要性,請閱讀《生物資訊9天速成班—成為團隊中不可或缺的人》。生信分析離不開程式寫作,這部分沒想象的難,只要跟著我們操作下來,就可以理解,具體見生物資訊中的程式學習心得。
課程簡介
請詳細閱讀課程簡介,如果以下內容您全精通,不必參加此培訓。
巨集基因組/微生物組是當今世界科研最熱門的研究領域之一,為加強本領域的技術交流與傳播,推動中國微生物組計劃發展,中科院青年科研人員創立“巨集基因組”公眾號,目標為打造本領域純乾貨技術及思想交流平臺。成立17個月,分享專業技術原創文章300+,關注人數30,000+,累計閱讀量4,000,000+。
為滿足廣大讀者進一步學習的需求,現聯合《生信寶典》組織巨集基因組學專題培訓課程,進一步學習和交流巨集基因組學分析技術,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日產出。
本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以學會並自己實現的分析)。從Linux和R基礎、巨集基因組Linux伺服器分析平臺搭建、Windows常用統計分析軟體、資料分析圖表解讀和實戰、巨集基因組有參(Reference-based適合人類、動物腸道等)和無參(De novo適合植物、環境樣本等)標準分析流程、Binning(挖掘單菌基因組)、統計分析以及各類高階分析(多基因連線進化樹、網路圖繪製和美化、網路屬性比較、機器學習等),和CNS級圖片修改排版。3天時間,老司機帶您完成自學需要3個月甚至是3年的崎嶇之路,助力您真正實現巨集基因組分析、並根據自己課題的背景優化分析方案。
課程大綱
每節課1小時一個主題,理論結合實戰,學懂原理,實戰實操,全是老司機多年經驗和程式碼的無私分享。下面是課程安排,如11代表第一天第一節課,26代表第二天第六節課,41為兩週後的線上集中視訊答疑。
編號 | 主題 | 簡介 |
---|---|---|
11 | Linux基礎 | 簡介、遠端登陸、檔案傳輸、常用命令 |
12 | Linux軟體安裝 | Conda安裝與配置,巨集基因組相關軟體安裝和資料庫更好載(提供國內備份地址) |
13 | Win軟體安裝 | git、R、Rstudio、R包、STAMP、AI等 |
14 | 圖表解讀 | 常用分析圖表在文章中意義和使用場景 |
15 | R基礎 | 發展史、生物學中應用、ggplot2繪圖 |
16 | 視覺化 | 16種圖表的資料整理和線上繪製 |
21 | 巨集基因組簡介 | 發展史、常用技術適用範圍、分析思路 |
22 | 巨集基因組有參質控 | FastQC、Trimmomatic、 MultiQC、KneadData質控、parallel平行計算 |
23 | 物種和功能組成 | MetaPhlAn2物種組成、HUMAnN2功能組成、功能關聯驅動物種 |
24 | 物種和功能差異比較和視覺化 | LEfSe、STAMP、R語言統計 |
25 | 發表前準備 | 圖片排版、資料釋放、程式碼整理(可選) |
26 | 網路繪製 | Cytoscape、Gephi網路繪製 |
31 | 物種註釋和視覺化 | Kraken、Kraken2、GraPhlAn、Krona、microbiomeViz、metacoder |
32 | 拼接、基因註釋和定量 | MEGAHIT、metaSPAdes、QUAST、Prokka、cd-hit、Salmon |
33 | 基因功能註釋 | KEEG、COG/EggNOG、CAZy/dbcan2、ARDB/Resfams/CARD、Uniref、VFDB、TCDB |
34 | 分箱Binning | MetaWRAP、MaxBin2、MetaBAT, VizBin |
35 | 細菌基因組進化 | Bins提取保守基因、多基因進化樹 |
36 | 總結串講 | 巨集基因組分析套路回顧和總結 |
37 | 考試50題 | 自評學習效果、知識點回顧 |
41 | 答疑-線上 | 答疑、考試內容串講 |
教程內容簡介如下:
一、分析平臺搭建
“工欲善其事必先利其器”,沒有自己的分析平臺,想分析大資料,那怎麼能行。巨集基因組資料量極大,前期原始下機的大資料想在自己本本上處理還是有難度的。好在現階段一般的高校、科研院所、課題組都有自己的伺服器,即使沒有伺服器,也可以租用國內的阿里雲、騰訊雲等服務。現在分析條件擁有了,如何把伺服器變成巨集基因組分析的利器呢,這是一個非常複雜的專業問題,在這裡你馬上可以學到!
圖1. 巨集基因組分析流程的搭建——系統、安裝方法和主要軟體
伺服器推薦使用Ubuntu系統。最低配置32G記憶體、8核;推薦256G記憶體,24執行緒起;配置越高,分析更快更流暢。
沒有軟體的計算機只是一堆廢鐵,沒有巨集基因組分析系統的伺服器也和你的資料分析沒有半毛錢關係。想要搭建整套的巨集基因組分析流程,網上的資源即零散、又稀少。易生信團隊將分享多年經驗摸索優秀軟體和佈置技巧,並分享全部原始碼,讓你在主流Linux伺服器系統(Ubuntu 16/18.04,CentOS7等主流發行版)上快速佈置巨集基因組分析流程依賴的幾十款常用軟體、幾百個依賴的R和Python包,輕鬆擁有專業分析平臺。
圖2. 易生信首創基於Win10優化的資料統計分析和視覺化流程,筆記本秒變大資料分析平臺
推薦使用Windows10系統,8G記憶體分析更快更流暢。
高通量測序所謂的大資料,都是在原始資料和分析過程中體積大,但結果不大。通常巨集基因組分析會獲得樣品物種組成、功能組成表,這些表格是下游分析、高階分析以及個性分析的起點,絕大部分工作在我們的筆記本上是可以搞定的,只是很多人並不知道如何入手。
其實你的個人電腦就是資料表(丰度矩陣)統計分析的利器。易生信團隊獨創實現了跨平臺的分析流程,在大家的Windows筆記本上可以輕鬆實現擴增子、巨集基因組領域統計、視覺化的絕大多數分析,第三節課帶你輕鬆在自己的本本上搭建資料表統計分析與視覺化平臺,基於目前最主流的Win10進行優化和測試,讓筆記本秒變資料分析視覺化平臺。
我們也會帶大家在Linux上配置整個分析視覺化平臺 (Mac跟Linux類似,無做區別對待,但部分軟體可能安裝方式不同,未做深入測試,不建議參加培訓時使用)。
二、生信基礎
有了生信分析平臺,如何靈活運用還是要學點獨門絕學的。21世紀最重要的是人才,人才最好掌握三門語言,將讓你人生立於不敗之地,在任何團隊中都是不可或缺的人才。這三門語言就是中文、英文和計算機語言。中文每天都在用在學,英文對於博士也至少接觸了10年以上並能應用於閱讀和寫作文獻,而程式語言大家大學階段都學過Visual Basic、Visual Foxpro、或C語言,但能在工作中應用的絕對鳳毛麟角。更何況這些語言在生命科學領域是非常低效的,不提倡學習。
生信中最常用的三類語言是Shell + R + Python/Perl,前兩門是基礎,保證你完成專案分析。我們在課上將同時講解生物學家必要掌握的Shell和R語言基礎知識,保證你高效、穩定的使用巨集基因分析平臺、保證大資料分析和後期視覺化至發表階段所需的技能。我們在文後提供了學習視訊供提前預習。
圖3. Shell和R學習大綱,首創Rstuio中滑鼠點選可完成Shell指令碼和R語言分析,既開啟生信的大門,又不會增加生物學家時間成本
當你利用幾個小時,走進大資料分析和視覺化的大門後,你將發現一個全新的世界。很多人會感覺相見恨晚,愛上分析,從此走向人生的快車道。即使你對程式設計不感興趣,這裡面用到的理念也定能讓你受益終身,在今後相關分析中事半功倍,比別人更勝一籌。再說現在連小學生都學Python了,再不會,孩子都帶不好了。
三、圖表解讀和繪製專題
針對很多老師缺少系統的生信背景,看不懂分析文章圖表,更對繪製各式圖表手足無措的情況, 我們推出過如下兩個系列,共16篇原創文章,對8種圖型和R語言繪圖進行講解。
但這些只是入門,在培訓時,我們將結合發表的高水平文章,進一步講解16種常用分析圖的原理和使用範圍,讓你不僅讀懂圖,更知道如何應用於自己的研究,並親自輕鬆完成繪圖。
針對使用R語言繪圖學習時間成本較高的問題,易生信團隊針對常用16種圖開發了免費繪圖網站,一鍵出圖,更可滑鼠點選引數修改圖形的個性樣式。
圖4. 16種常用圖形的表達的意義、使用場景和繪製。可使用我們的線上繪圖工具<www.ehbio.com/ImageGP>實現。
為了讓各種統計圖片實現出版級的組圖,特開設了一節Adobe Illustrator修圖排版課,講述基本使用技巧,輕鬆掌握精髓,讓你文章圖版檔次向CNS看齊,輕鬆成為實驗室的修圖和拼圖達人。
圖5. AI排版本子圖為CNS出版級組圖示例(Science, 2016封面文章)
四、巨集基因組學概述
在第一天全面打造科研基礎後之,我們將開始巨集基因組大資料分析之旅。
作為專業基礎知識,我們將學習以下內容。
- 背景:國際微生物組、中國微生物組計劃
- 研究物件:人、動物、植物、環境
- 研究方法:培養組學、擴增子、巨集基因組、巨集轉錄組、巨集蛋白組、巨集代謝組、巨集基因組關聯分析、巨集表觀組……
- 巨集基因組學的研究熱點:培養組、腸菌與疾病、巨集基因組關聯分析(MWAS)、多組學聯合分析……
- 測序發展史與原理
- 樣品製備、實驗重複和測序資料量的選擇
- 巨集基因組分析SCI文章的常用套路
- 巨集基因組與擴增子優缺點比較
- 原始資料評估、組裝結果好壞的判斷
圖6. 巨集基因組學常用手段:擴增子、巨集基因組、巨集轉錄組所能回答的科學問題
五、巨集基因組學有參分析流程
剛上手每個樣品幾G到幾十G的資料,如果無從下手,還是建議立馬來一套有參分析,快速獲得樣品的物種組成和功能組成。有參(Reference-based)方法,顧名思義,是直接使用現在的物種、功能基因註釋資料庫,資料只通過質控、比對而快速獲得相應物種、功能基因的相對丰度矩陣。在本領域第一分析大牛Rob Knight的最新綜述中對此方法也很推崇,超強綜述 | Rob Knight等手把手教你分析菌群資料(全文翻譯1.8萬字)。
此法優勢明顯,步驟少,速度快,省時省力,適合人類腸道、模式生物、海洋等有較好參考資料庫的領域。缺點是無法識別未被報導物種的功能基因,對於植物、土壤、極端環境樣本分析時,會損失很多資訊。
圖7. 巨集基因組分析基本思路——有參分析流程。主要通過MetaPhlAn2基於己報導的所有微生物基因組獲得物種組成,基於UniRef、EggNOG、KEGG等蛋白資料庫確定功能組成。16S擴增子資料本身只包含物種組成,可通過PICRUSt獲得KEGG/COG的功能組成。
主要知識點:
- 實驗設計的編寫原則
- Vsearch獲得16S擴增子物種組成
- 基於PICRUST的16S預測巨集基因組
- KneadData流程快速質控和去宿主流程
- 物種組成定量MetaPhlAn2
- 功能組成定量HUMAnN2
六、巨集基因組無參分析流程
巨集基因組無參分析,主要有兩個目的:一是獲得未被註釋的物種和基因表達;二是通過Binning挖掘新物種的基因組。看樣子很美好,但實際操作起來對計算量要求非常大。分析過程中比有參多了組裝、基因預測、非冗餘基因集構建和基因註釋等步驟。
圖8. 巨集基因組無參分析流程。
關鍵步驟及使用軟體:
- 資料的質控:FastQC, Trimmomatic, MultiQC, Khmer
- 巨集基因組拼接和評估:MEGAHIT, SPAdes、QUAST
- 基於kmer樣品和組間差異分析:Sourmash
- 基因註釋:PROKKA、MetaGeneMark
- 構建非冗餘基因集:CD-HIT
- 基因丰度估計:Bowtie2, BWA, Salmon等方法快速基因丰度定量,後續可進行PCA、PCoA、CCA等整體組間差異比較;也可進一步使用edgeR、MetaStat、LEfSe進行組間差異基因分析;
- 物種註釋:獲得非冗餘基因集物種註釋資訊,也可在reads層面使用Kraken進行直接物種註釋,結合第6步丰度值可進行組間差異物種分析;
- 基因功能分類註釋:代謝通路(KEGG),同源基因簇(eggNOG)註釋,結合6中丰度進行組間差異功能比較;
圖9. 巨集轉錄組分析流程。巨集轉錄組較巨集基因組多一步去除rRNA基因序列的步驟。此方法缺點是無法獲得真實的物種組成,但它體現的是在特定時空條件下有活性的物種和功能基因表達水平組成。
七、高階分析與視覺化實戰
- R語言統計繪圖與可重複計算
- 巨集基因組中鑑定單菌(分箱bin):Maxin, metabat
- Bin結果評估及視覺化:CheckM, VizBin
- 巨集基因組視覺化:Circos
- 線上流程:MEGAN、MG-RAST、EBI-metagenome
- 網路分析: igraph、WGCNA、Cytoscape
- 多基因連線樹構建:RaxML、fasttree、iToOL
- 其它常用:Graphlan、Krona
圖10. 巨集基因組基因組成、丰度、覆蓋度等資訊視覺化
圖11. 基於多基因連線的進化樹構建和美化(Levy-2018-NatureGenetics)
學習完本課程,你能得到什麼?
深徹理解生物測序資料的基本思想
巨集基因組分析三種模式全面的解決方案,以及結果的統計分析
- 16S擴增子資料PICRUST預測巨集基因組
- 巨集基因組資料Humann2定量物種和功能
- Denovo巨集基因組拼接和binning
幾十種軟體資料庫的使用經驗
- 幾十款本領域軟體的安裝、使用教程
- 常用功能註釋資料庫的理解和使用
高要求的結果視覺化
- 結果的差異比較
- 多種視覺化方案
主講教師
主講老師包括中科院微生物所、遺傳發育所、基因組所、生物物理所等多名本領域一線技術專家。
陳同,博士,2015畢業於中科院遺傳與發育生物學研究所,生物資訊專業博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research X 2,Stem Cells and Development等高水平雜誌以第一作者或主要作者發表文章,運營有數萬人關注的《生信寶典》微信公眾號,給你不一樣的學習生信體驗。
劉永鑫,博士。2008年畢業於東北農大微生物學專業。2014年中科院遺傳發育所獲生物資訊學博士學位,2016年博士後出站留所工作,任巨集基因組學實驗室工程師,目前主要研究方向為巨集基因組學資料分析與可重複計算。發表論文11餘篇,SCI收錄8篇。2017年7月創辦“巨集基因組”公眾號,目前分享巨集基因組、擴增子原創文章262篇,關注人數3萬+,累計閱讀4百萬+。
陳亮,博士。2010年畢業於魯東大學生物技術專業,2017年於中國科學院微生物研究所獲微生物學博士學位。目前就職於中國科學院微生物研究所病原微生物與免疫學重點實驗室,生物資訊和計算生物學研究組,任助理研究員,目前主要研究內容為微生物生態學、巨集基因組學等方面的資料探勘和分析。在巨集基因組公眾號發表一文學會網路分析——Co-occurrence網路圖在R中的實現等。
周欣,中科院微生物碩博連續在讀博士生(5年級),曾在加拿大農業與農業食品部-渥太華研究發展中心微生物生物資訊研究組聯合培養一年。熟悉高通量擴增子和巨集基因組資料的處理及下游差異統計分析工作。目前主要研究方向為植物病害(土傳病害)相關的微生物組學研究。在巨集基因組公眾號發表VSEARCH操作實戰-免費使用無記憶體限制的USEARCH等。
往期課程瞬間
助教團隊
十餘名中國科學院、清華、北大博士(含在讀),輪值講師和助教,輔助學員學習和矯正培訓過程中不足的點。
授課模式
本課程以講解流程和實際操作為主,採用獨創四段式教學:
- 第一階段 3天集中授課;
- 第二階段 自行練習2周;
- 第三階段 線上直播答疑;
- 第四階段 培訓視訊繼續學習;
- 實現教-練-答-用四個環節的統一協調。
培訓時間
2019-3-22 到 2019-3-24 (線下講解實戰)
每天早9點到晚6點,半封閉式教學 (最後1小時為圓桌討論時間,增加互動交流。最後一天會稍微提前一些,多留出時間討論,也方便老師乘車返回)
報到時間:提前一天或者當天都可以
授課地點
北京市西城區鼓樓明德大廈 (北京市舊鼓樓大街47號院2號樓2010)。
課程價格
- 截止 2019-3-17 4500 元/人
- 名額有限,每次課程報名滿40人後自動關閉報名通道
- 提供易漢博基因科技實習機會或工作機會
課程福利
- 座位按報名並繳費(或預繳費)成功順序從前到後龍擺尾式排序
- 贈送程式基礎課和對應課程往期視訊課一份 (http://bioinfo.ke.qq.com)
- 多人 (N,10>N>1) 組團報名並同時繳費,每人還可減免N-1百元 (最高500)
- 贈送金士頓U盤一個(32G含培訓資料和指令碼)
- 附推薦與分享對應的招生資訊到朋友圈,截圖發到[email protected] 可獲得200元生信寶典騰訊課堂課程優惠券(可拆分供多個課程使用)
- 易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;三門課9折,4門及以上85折。還可與團購同時優惠!擴增子(專案初探)+生物通識(打基礎)+巨集基因組(高精尖),祝你分析水平更上一層樓。
注意事項 *
- 需自備膝上型電腦,推薦使用win10系統,4G以上記憶體(推薦8G)。課程實踐根據需要會提供雲端計算平臺
- 培訓班所有資料,文件為內部資料,僅供參閱,未經允許不得翻印外傳登刊
- 上課期間禁止錄音,錄影
- 成功付款的學員,若臨時有緊急事情不能到來的,可申請延期,更換後續培訓班;也可申請退款
- 若開課2周 (含) 前申請退款可退還85%費用;開課3個工作日 (含) 前申請退款退還70%的費用 (若已開發票需承擔相應手續費)
- 不可先延期再退款
更多課程的詳細介紹,請掃描下方二維碼。
易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;三門課9折,4門及以上85折。還可與團購同時優惠!擴增子(專案初探)+生物通識(打基礎)+巨集基因組(高精尖),祝你分析水平更上一層樓。
成為實驗中不可或缺的人,複製以下連結
http://www.ehbio.com/Training/ 或
點選閱讀原文,趕快報名吧!