使用Vegan包進行生態學資料排序分析的學習(一)
基本概念與分析原理的理解
做生物資訊以來一直對排序等的概念不是特別理解。這兩天查了幾篇資料,梳理了一下,做一下簡要的總結。
1.排序:
假設我們有一個OTU表:
行為樣本,列為OTU(也可以理解為特徵)。我們要對這4個樣本進行排序:
假如只有一個otu: 那麼根據這一個OTU在每個樣本中的值就可以排序啦。
假如有兩個OTU(otu_9,otu72):我們可以建立二維座標軸,橫座標是OTU9,縱座標為OTU72,根據這兩個OTU的值,我們也可以畫出點來。
假如有三個OTU:那麼就是三維座標來畫點,也是可以畫的。
那麼大於三個OTU的時候呢?那就是n維空間中的點了,是無法畫出來的。
所以我們要找到一種方法,將n維空間中的點,在二維平面內展現出來。
由於這麼多的點無法共面,所以要找到一個平面,使空間中的所有點都能投影在這個平面上,而且投影的點之間的距離,越能反應真實距離越好。這個投影過程就是排序運算過程。好的排序方法是投影過程資訊損失最少。
排序簡單分類:
只使用物種組成資料的排序稱作間接排序,同時使用物種和環境因子組成資料的排序叫做直接排序。
排序方法分類:
基於線性模型的主分量分析:PCA,RDA (線性模型)
基於非線性模型的對應分析 : CA,CCA (單峰模型)
選擇排序的模型:
進行排序分析之前,首先要判斷是選擇線性模型(PCA 和RDA)還是單峰模型(CA和CCA)的排序方法。一般來說,如果物種分佈變化大,選擇單峰模型效果比較好,反之,線性模型也是不錯。可以通過DCA分析來判斷,如果DCA排序前4個軸中最大值超過4,選擇單峰模型排序更合適。如果是小於3,則選擇線性模型更好(Lepx & Smilauer 2003)。如果介於3-4之間,單峰模型和線性模型都可行。
R中DCA計算方法:decorana()函式
decorana(otu.txt) 結果看Axis lengths中的最大值。
在本案例中,Axis lengths 最大值為3.5954,介於3-4之間,線性模型(PCA 和RDA)和單峰模型(CA和CCA)都適用。