1. 程式人生 > >決策樹資訊增益

決策樹資訊增益

決策樹和整合演算法都是樹模型

決策樹:從根節點一步步走到葉子節點,所有的資料都會落到葉子節點,既可以做分類也可以做迴歸。

一顆樹有三種節點組成,根節點,中間幾點,葉子節點。根節點是第一個選擇節點,也是最重要的一個選擇特徵。葉子節點是存放最終的結果。

決策樹的訓練和測試

訓練是建立一棵樹。

測試是讓資料從根節點走到葉子節點。

如何切分特徵:

通過一種衡量標準,計算在不同特徵下的值。選擇最好的一個作為根節點。

決策樹的三種演算法:

       1.ID3      資訊增益

       2.C4.5     資訊增益率

       3.CART   基尼係數

 

決策樹減枝原因:容易出現過擬合,只要樹足夠大,能夠把所有的資料分開。

減枝分為預剪枝和後剪枝。

預剪枝:在建立樹的過程中進行剪枝。---實用

後剪枝:在建立決策樹以後剪枝。

 

剪枝策略:

預剪枝策略:限制樹的深度,葉子節點的個數,資訊增益量的大小等。

後剪枝策略:通過一定的衡量標準,比如葉子節點個數越多,損失越大。