微生物組入門必讀+巨集基因組實操課程=新老司機趕快上車
宣告:本文轉載自巨集基因組公眾號,原作者朱微金,己獲作者授權。
寫在前面
作為純wet遺傳學博士,轉行微生物組領域已經有兩年。目睹微生物組文章中分析所佔比重之大,讓我痛下決心苦學dry技能。目前感覺對巨集基因組領域的基礎分析技術已經略懂,每天按自己的想法搞事情還是很開心的事,今承本公眾號主編劉博士再三邀請分享學習經驗,在下不才將之前學習經歷和筆記共享之,新人請上船,老司機請拍磚,以求共進。
簡要説一下我的轉型經歷,為基礎差上不了車的同學有個借鑑,哪裡不會點哪裡。即有生信知識,又有微生物組專業課程,主要分為以下三個階段:
1. 第一階段:自學書本+線上課程
兩年前最開始學Linux是電腦裝了雙系統Win+Ubuntu,學習
除了Linux基礎,左手用Python當膠水,右手用R畫帥圖,還是dry實驗的基本技能。Python教程推薦 – Coursera 密歇根大學《大家的程式設計 (Python 入門)》。R教程推薦 – Coursera 約翰霍普金斯大學《R語言程式設計》,R語言繪圖建議學習《ggplot2:資料分析與圖形藝術》,實用性非常強,個人不推薦學習《R語言實戰》(反正學的很不爽,閱讀不舒服,學完了也沒感覺提高)。學習程式語言,一定不要光看,最好不要複製程式碼,自己敲一遍,檢查每步的輸入輸入的內容,才是提高的根本。
這裡推薦一下Rob Knight在Coursera上的微生物組課程《腸道檢查:探索身體中的微生物群系》,新手必看,優點是英語標準,還有中/英字幕,拍攝效果有大片風,感覺講課者顏值都好高。
2. 第二階段:文獻閱讀+各類培訓
平時大量的閱讀前沿文獻是必不可少的,沒有廣泛的知識,即無法讀懂高水平文章,更把握不了前沿的方向。近兩年我閱讀了至少1000篇文章的摘要,精讀圖表結果和方法的也有100篇以上。推薦訂閱《馴路短科普》,那裡已經翻譯整理了4000+相關文獻的導讀,早上DK時間閱讀10分鐘閱讀《熱心腸日報》,即排毒又漲姿勢,節省大量查文獻和閱讀英文摘要時間,篩選到的重點文獻可進一步精讀。
去年七月參加了南土所褚海燕老師主辦的
今年五月我也參加了北微所的微生物組專題培訓,收穫是對細菌基因組有了比較系統的學習,但擴增子、巨集基因組方向的講解對我來説還是太基礎了,對剛入行的小夥伴還是非常有用的,起碼對擴增子、巨集基因組、微生物基因組三大塊有系統的認識,並積累一份寶貴的學習材料反覆學習,少走彎路少進坑。
參加培訓還是很有意義的,是在拿錢換自己的寶貴時間,而且一般花的還不是自己的錢,不是很划算嗎?
3. 第三階段:國外優秀教程+高水平文章實戰
當水平達到一定層次,培訓的意義就不大了,因為培訓面對的是大眾和新手。那如何進步呢?
我最痛恨的是高水平文章發表了連原始資料都不公佈,之前讀的一篇NG和PC我發信找通訊作者要資料都不給,居然説資料還在分析做另一個專案。那以之前的資料的文章沒資料還有很多人引用,看來引用也是很有水分的,再有學術應該有監督和舉報機制,拒不共享發表文章原始資料的應該被投拆追責甚至撤稿,很多不僅是怕競爭,更多的是有水份。再不能忍的是方法描述不清,分析文章也不提供指令碼下載,即使發信請求也找各種理由拒絕,這是令為非常不滿的。你要是分析過程保密,申請專利好了,還發什麼文章呀!組學文章沒有原始碼,都是在耍流氓。這裡我要推薦本個本領域的大牛,Jeffery L. Dangl 和 Paul Schulze-Lefert,他們的文章不僅上傳資料規範,而且分析程式碼可打包下載,是不可多得的優秀學術材料,重現高水平文章結果,對自己的分析、理解能力提高是非常顯著的。
此外,國內本領域的中文共享材料是幾乎空白的,你搜索到的頂多是公司的宣傳材料,乾貨流程只掌握在少數公司和課題組內,很少有人共享,尤其是之前。我上週在本平臺分享的巨集基因組分析教程-Analysis of Metagenomic Data閱讀人數2000+,還是很多人需要的,需要提示的是,課程不是用來收藏的,而是用來看的,3天的課程我3小時就看完了。對於新手如果有不理解的地方,最好的解決的方法就是再看一遍。這套教程的原理和工具講的非常系統,對我們接下來實操幫助極大,新人建議仔細閱讀三遍,再上本次實操課程的船。
本次為大家帶來了更乾貨的實戰課程,新人敢快搬個小板凳找坐位,老司機上船一起飛。雖然本課程以環境樣品為例,缺少動植物研究中去宿主等一些重要步驟,但是這絕對是我目前見過的最好的教程,全程亮點,帶你快速上手實戰。下面是對本次課程內容的簡介,請仔細閱讀。如果此文閱讀量3000+,大家想學習巨集基因組實戰的願望夠強烈,我將在接下來的三個月裡,每週在平臺開展本系統課程的中文講解,帶大家快速上手,避免誤區。
注:文中提到相關資料連結見文末Reference部分
ngs-docs資源推薦
在Github上有一個ngs-docs的帳號, https://github.com/ngs-docs 裡面收錄了50多套美國高通量測序的培訓課程資料,即有程式碼、測序資料,又有網頁講解,甚至有線下的現場講課視訊。任何生信老司機都不應錯過。巨集基因組學這麼熱門的領域,自然教程不會少。如下圖,巨集基因組學培訓在不到一年內已經舉辦了四場,並更新了四次,本領域的小夥伴決不要錯過。本文對9月末最新的“2017-cicese”培訓簡介(資料17年10月9日更新),並提供2016課程的全部資料百度雲下載(見文末)。
圖1. ngs-docs中巨集基因組相關課程
最新巨集基因組實操教程
巨集基因組實操課程-2017 CICESE Metagenomics Workshop at UC Davis
2017年9月26-30日UC Davis的巨集基因組培訓班
時長:五天
主講:Harriet Alexander and C. Titus Brown
助教: Jessica Blanton, Adelaide Rhodes, Shawn Higdon, Jessica Mizzi, Phillip Brooks, Veronika Kivenson
培訓日程
第一天
- 登陸XSEDE Jetstream雲
- 熟悉命令列
- 命令列執行blast
- 作業:閱讀 Nature Method 《巨集基因組軟體評估金標準》(譯者組也參與本文章)
第二天
- 資料型別簡介
- 測序資料的質控
- 報告:資料組裝——Titus Brown
- 嘗試:自己質控和組裝資料
第三天
- 使用MEGAHIT組裝序列
- 使用sourmash搜尋與比較樣品
- 序列比對至組裝結果
- 巨集基因中分箱單菌基因組
第四天
- Prokka註釋基因組序列
- Salmon對樣品基因丰度定量
- Anvi視覺化組裝結果
- 討論工作流程與可重複性
第五天(選學)
- 下一步的工作;
- 相關資源:SEQ Answers, Biostars, Data Carpentry, DIB Summer Institute
- 複習學過內容
目錄
圖2. 英文目錄-巨集基因組部分
- 歡迎
- 學習目錄
- 安全空間與程式碼行為
- 課前指南
- 亞馬遜雲
- 筆記
- 使用亞馬遜雲
- Shell課程介紹
- Shell課程
- 學習目標
- 什麼是shell
- 如何進入
- Mac/Windows
- 開始使用
- 引數
- 檔案目錄結構
- 在檔案系統中移動
- 檢視資料夾內容
- 使用快捷鍵
- 命令歷史
- 檢查及檢索檔案
- 重定向
- 建立、移動、複製和刪除
- 執行程式
- 進一步閱讀參考文獻
- 查詢檔案
- 執行命令列BLAST
- 資料質量評估和質控
- 軟體安裝
- FastQC
- Trimmomatic
- MultiQC
- 使用MEGAHIT組裝
- 評估巨集基因組組裝
- Prokka基因註釋
- 安裝、執行Prokka
- 安裝、執行Kraken和MiniDA
- 安裝執行Prodigal
- sourmash教程
- K-mers專題
- 巨集基因組分箱
- 安裝分箱軟體
- 統計Mapping的序列數
- MaxBin
- MetaBAT
- 分箱結果視覺化
- Salmon估計基因丰度
- 安裝和執行
- 處理計數型資料
- 結果視覺化
- 序列比對Mapping
- 下載和比對資料
- 轉換為BAM並可視化
- K-mer打斷
- Anvi視覺化組裝結果
- 安裝、格式化
- 比對
- 產生contig
- 鑑定和精選分箱基因組
- Circos視覺化
- 工作流程與可重複
- 資料
- 自己備份此網站
此課題是上月末在加州大學戴維斯剛舉辦的,雖然課題內容新,但相關資料不完整,只有在線網頁版教程。
喜歡本地學習和收藏課程的同學,可以學此課程的2016版本,其實內容差不多,但包括PDF和HTML版課件,以及錄製好的視訊,小編都為你打包整理到了百度雲盤。有需要的朋友請分享這麼好的資料到朋友圈讓更多需要的朋友看到,並截圖傳送後臺,24小時內即可獲得下載地址。
Reference
寫在後面
為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內五十位PI,五百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加創始人好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀如何優雅的提問學習解決問題思路,仍末解決推薦生信技能樹-微生物組版塊(http://www.biotrainee.com/forum-88-1.html) 發貼,並轉發連結入群,問題及解答方便檢索,造福後人。
學習16S擴增子、巨集基因組思路和分析實戰,快關注“巨集基因組”,乾貨第一時間推送。