1. 程式人生 > >擴增子圖表解讀5火山圖:差異OTU的數量及變化規律

擴增子圖表解讀5火山圖:差異OTU的數量及變化規律

image

作者: 劉永鑫
日期:2017-7-1
閱讀時長:10min

背景介紹(Introduction)

巨集基因組學

巨集基因組學目前的主要研究方法包括:16S/ITS/18S擴增子、巨集基因組、巨集轉錄組和代謝組,其中以擴增子研究最為廣泛。

目的意義

本系列文章將帶領大家結合較新的16S擴增子相關文獻,來理解巨集基因組16S擴增子文章中常用圖表種類、圖中包括的基本資訊,以及作者想表達的結果。

主要內容

本系列文章內容包括:箱線圖、散點圖、熱圖、曼哈頓圖、火山圖、維恩圖、三元圖和網路圖等。

學習思路

  1. 羅列知識點,熟悉專業名詞,弄個臉熟,即使理解不深刻起碼在閱讀中不會有抵觸情緒;
  2. 結合具體文章讀圖,實戰兩三次,基本就是專業人士了。

將來在大家可以很好理解相關文章圖表的基礎上,希望對分析、統計和繪圖相關技術有進一步學習的小夥伴請積極回覆並留言吧。如果本系統文章閱讀過萬,想學分析的留言過百。我還將詳細講解擴增子分析、統計和繪圖各步驟的分析例項和原始碼,希望大家多多鼓勵和支援。

宣告:文章的解讀僅代表個人理解和觀點,有不足處,請讀者積極留言批評指正,互相學習,共同進步。

知識點(Method)

火山圖 Volcano plot

image
在統計學上,火山圖是一種型別的散點圖,被用於在大資料中快速鑑定變化。由於它的形成像火山噴發的樣子,所以被稱為火山圖。和上文講的曼哈頓圖類似。
In statistics, a volcano plot is a type of scatter-plot that is used to quickly identify changes in large data sets composed of replicate data.

火山圖基本元素

火山圖也有很多種樣式,在生物學高通量測序結果中,常見有的X和Y軸分別為aboundance 和 fold-change,或p-value和fold-change兩種樣式。如上圖中為p-value versus fold-change的樣式,,先此為例進行圖中基本元素解讀:
- X軸:通常為兩組基因表達或OTU相對丰度比較的變化倍數取2的對數log2(Fold change)。 取log2的原因:由於兩數相比,倍數取值範圍為0 - 正無窮,上調的倍數為1 - 正無窮,比較容易理解;而下調倍數為0-1很難理解。如果取對數可將倍數以1為中心左右對稱,取2的對數是因為經驗上2倍差異比較常用,故取log2變換既可以使上調或下調資料對稱(上、下調的目標同等重要,無偏好),而且座標軸1個單位刻度的變化即為2倍差異(方便快速篩選足夠差異的點);
- Y軸:兩組基因表達或OTU相對丰度相比統計上的顯著性Pvalue值,通常取負對數10變換 -log10(P-value)。取負對數與轉換下調錶達數值原理類似,將0-1範圍pvalue資料變為0-正無窮,且將越小越顯著的P-vale轉換為與顯著性正相關,方便觀察顯著差異目標。Pvalue取負對數10轉換後,座標軸數值2,3對應0.01和0.001的顯著閾值,便於理解。有時也用-ln或-log2對Pvalue值進行轉換。
- 圖中點:代表每個基因或OTU在兩組相比時差異倍數和顯著性的值;通常將顯著變化並且差異倍數大於指定閾值的點規定為顯著差異的結果,常用顏色高亮顯示(圖中綠色點)。有些重點關注的點可以新增箭頭或標籤進一步突出顯示(圖中綠色箭頭)。有時還會有點大小代表相關丰度,點的形狀代表其它一些屬性,如物種分類資訊等。

火山圖繪製

常用R語言的ggplot2繪製。接一來的統計和繪圖課會有詳細原始碼和分析例項。

看圖實戰(Result)

示例1. 各比較組間上/下調顯著差異OTU的數量

圖2.A 水稻根不同生態位相對於土壤中顯著差異的OTU
1. 圖中元素解釋:不同於上面例子,此圖為Fold change versus Average Abundance樣式,大家注意一下,常見就這兩種。
- X軸標籤為Log10(Average Abundance),是相對丰度平均值 取10的對數,這裡用X軸展示了OTU的丰度,而不是pvalue值。其實作者X標題可能將Log2錯寫為了Log10,因為OTU相對丰度分析常用百分、千分和百萬分數,即使是最大的百萬分數取Log10最大值僅為6,而不會座標軸刻度至15,這種0-15的刻度是典型的Log2(RPM)百萬分數的資料。
- Y軸標籤為Log10(Fold Change)是指兩組間比較差異倍數經10的對數變換;標籤也可能是錯誤的,因為想讓倍數對稱必須取負對數,而且通常用-Log2,Log10的值是10時就有上百億倍,擴增子不可能有這麼大的差異或深度(擴增子差異倍數為了防止分母為零需要加某值,因此也減小了差異倍數,不會有非常大的情況;擴增子測序深度一般只有幾千至幾十萬,不可能有上億的量)。
- 圖中的每個點代表一個OTU,其中圖上部有顏色的點為顯著富集(enriched)的OTU,下部有顏色的點為顯著下降(depleted)的OTU,黑灰色的點為沒有顯著差異的OTU;圖中標記的數字為顯著富集或下降的OTU的數量;
2. 圖表結果:圖中展示了從根際、根表到根內與土壤相比,所有OTU的相對丰度和差異倍數,其中高亮顯示顯著富集或下降差異OTU和數量;
3. 圖表結論和規律:從根際-根表-根內,從外到內,顯著差異的OTU總數量是逐漸上升的,代表變化越來越大;其中根際有較多富集的OTU,而根表和根內則較多為下降的OTU;
4. 經驗和技巧:本圖雖然有X/Y軸標籤描述有待商榷,但許多優點值得學習;
1. 大家經常看到的看火山圖都是豎起的,左、右部分高亮的為差異OTU,而作者將影象放倒(順時針旋轉90度),以Y軸零刻度為分介面,上部為富集OTU,下部為下降OTU也很直觀,而且耳目一新;
2. 圖中差異OTU的數量標出,不用讀者自己去估計,直接明瞭,感覺資訊量更豐富;
3. 三組圖並排且變化明顯,不用多説,讀者自然會去比較差異,引導讀者參與分析比較和規律發現。

附圖注原文:
Fig. 2. Rhizocompartments are enriched and depleted for certain OTUs. (A) Enrichment and depletion of the 27,147 OTUs included in the greenhouse experiment for each rhizospheric compartment compared with bulk soil controls as determined by differential abundance analysis. Each point represents an individual OTU, and the position along the y axis represents the abundance fold change compared with bulk soil. (B) Numbers of differentially enriched OTUs between each compartment compared with bulk soil. (C) Numbers of differentially depleted OTUs between each compartment.

Reference

  1. Edwards, J., et al. (2015). “Structure, variation, and assembly of the root-associated microbiomes of rice.” Proceedings of the National Academy of Sciences 112(8): E911-E920.

想了解更多巨集基因組、16S文獻閱讀和分析相關文章,快關注“巨集基因組”公眾號,乾貨第一時間推送。
image

系統學習生物資訊,快關注“生信寶典”,那裡有幾千志同道合的小夥伴一起學習。
image

相關推薦

擴增統計繪圖5火山差異OTU數量變化規律

本網對Markdown排版支援較差,對格式不滿意的使用者請跳轉至 或“巨集基因組”公眾號閱讀; 寫在前面 優秀的作品都有三部分曲,如駭客帝國、教父、指環王等。 擴增子系列課程也分為三部曲: 第三部《擴增子統計繪圖》:即是對結果進行可視和統計檢

擴增圖表解讀5火山差異OTU數量變化規律

作者: 劉永鑫 日期:2017-7-1 閱讀時長:10min 背景介紹(Introduction) 巨集基因組學 巨集基因組學目前的主要研究方法包括:16S/ITS/18S擴增子、巨集基因組、巨集轉錄組和代謝組,其中以擴增子研究最為廣泛。

擴增統計繪圖4曼哈頓差異OTU和Taxonomy

本網對Markdown排版支援較差,對格式不滿意的使用者請跳轉至 或“巨集基因組”公眾號閱讀; 寫在前面 優秀的作品都有三部分曲,如駭客帝國、教父、指環王等。 擴增子系列課程也分為三部曲: 第三部《擴增子統計繪圖》:即是對結果進行可視和統計檢

擴增圖表解讀1箱線Alpha多樣性

nova 核心 變化 宏基 ova 中位數 ring sphere gen 箱線圖 箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在宏基因組領域,常用於展示樣品組中各樣品Alpha多樣性的分布

擴增分析解讀4去嵌合體 非細菌序列 生成代表性序列和OTU

2.3 處理 發展 es2017 根據 條件 一個 命名 reads 本節課程,需要先完成 擴增子分析解讀1質控 實驗設計 雙端序列合並 2提取barcode 質控及樣品拆分 切除擴增引物 3格式轉換 去冗余 聚類 先看一下擴增子分析的整體流程,從下向上逐層分

擴增分析解讀6進化樹 Alpha Beta多樣性

temp 沒有 深度 比較 標準 www. fas oge seq 分析前準備 # 進入工作目錄 cd example_PE250 上一節回顧:我們的OTU獲得了物種註釋,並學習OTU表的各種操作————

擴增分析解讀7物種分類統計 篩選進化樹和其它

方法 類信息 exce grep ash each 腳本 seq bash 分析前準備 # 進入工作目錄 cd example_PE250 上一節回顧:我們獲得了OTU序列的進化分析、同時計算Alpha和Beta多樣性值。 本節是最後一節,我們

擴增分析解讀2提取barcode,質控樣品拆分,切除擴增引物

本網對Markdown排版支援較差,請跳轉“巨集基因組”公眾號閱讀; 寫在前面 之前釋出的《擴增子圖表解讀》系列,相信很多朋友都看過了(連結直達7月文章目錄)。 這些內容的初衷是寫給本領域剛進實驗室的學生讀,加速大家對同行文章的解讀能力。如果連同行

DBImport v3.5 中文版釋出資料庫定時同步文件生成工具(IT人員必備)

前言: 趁著最近的休息時間,只能多勤快些:多寫程式碼,多更新文章。 因為一旦投入新的工作,估計部落格又會恢復到一年才產幾篇的狀態。 對於DBImport,因為使用者的意見,增加了一個亮點功能,讓軟體B格升為資料庫時時同步工具,所以值的介紹一下。 相比上一版本的主要功能

擴增統計繪圖1箱線Alpha多樣性

ggplot2 highlight hole ima pre 運行 提取 posit row 繪制Alpha多樣性線箱圖 繪圖和統計全部為R語言,建議復制代碼,在Rstuido中運行,並設置工作目錄為存儲之前分析結果文件的result目錄 # 運行前,請在Rst

Python交互圖表可視化Bokeh5 柱狀| 堆疊| 直方圖

數據解析 6.0 end 使用 tle 導入 我們 weight 步驟 柱狀圖/堆疊圖/直方圖 ① 單系列柱狀圖② 多系列柱狀圖③ 堆疊圖④ 直方圖 1.單系列柱狀圖 import numpy as np import pandas as pd import

11月深度學習班第5像物體檢測rcnn/fast-rcnn/faster-rcnn

連接 過程 bsp reg 卷積 獨立 src 方案 技術 rcnn:看作分類問題,算法的組合:候選框+卷積提取特征+svm分類 候選框是借用外來的方案,深度學習只是用來提取特征,分類是svm算法,所以不是端到端的方案 1:邊緣策略,先根據圖像像素之間的關系聚類

LeetCode最長回文串【5

msu 產生 嘗試 ++ 不必要 code 分享 規劃 color LeetCode:最長回文子串【5】 題目描述 給定一個字符串 s,找到 s 中最長的回文子串。你可以假設 s 的最大長度為1000。 示例 1: 輸入: "babad" 輸出: "bab" 註意: "ab

Python交互圖表可視化Bokeh3. 散點

spa radius zip code ngs filter let rom alpha 散點圖 ① 基本散點圖繪制② 散點圖顏色、大小設置方法③ 不同符號的散點圖 1. 基本散點圖繪制 import numpy as np import pandas as

5像特征提取算法haar特征

提取算法 中心 boost 兩種 log 圖形 分享 邊緣 眼睛   該特征常和AdaBoost結合用於識別人臉。Haar特征很簡單,分為三類:邊緣特征、線性特征、中心特征和對角線特征,組合成特征模板。特征模板內有白色和黑色兩種矩形,並定義該模板的特征值為白色矩形像素和減去

融合之加載Tensorflow.contrib.slim與tf.train.Saver之坑

sce npe ids import print filters cpu xxx true import tensorflow as tf import tensorflow.contrib.slim as slim import rawpy import numpy

Microbiome16S擴增測序研究中定量變異和生物量影響

16S擴增子測序研究中定量變異和生物量影響 Quantification of variation and the impact of biomass in targeted 16S rRNA gene sequencing studies Microbiome, [9.1

2018 中國AI人才大調查14張圖表解讀他們來自何處,又將去往何方?

AI科技大本營按:本篇內容來自由 CSDN 出品的《2018 人工智慧產業路線圖》V2.0 版中 1.6 章人才分析篇,通過對相關 AI 人才各維度的資料分析,我們儘可能勾勒中國 AI 人才發展的全景面貌。產業路線圖 2.0 完整版我們將很快提供讀者下載,敬請期待。  

程式設計師調 Bug 的 5 個階段

程式設計師調 Bug 的 5 個階段↓↓↓英文:Jeff Lofvers漢化:[email

Android自定義圖表庫(一)圓形進度

效果預覽 自定義View第一步:確認View的大小 無論是自定義一個View還是ViewGroup我們必須得先為其制定在不同MeasureSpecMode下的大小,我這裡就不講解什麼繪製原始碼了什麼的,我們就直接實戰。 我們在onMeasure中需要呼叫se