1. 程式人生 > >機器學習--決策樹

機器學習--決策樹

-1 最優 bsp p s 分享 log cnblogs 學習 tex

基本流程:

  決策樹:

    根結點:屬性測試,包含樣本全集

    內部結點:屬性測試,根據屬性測試的結果被劃分到子結點中

    葉結點:決策結果

技術分享

  劃分選擇:如何選擇最優劃分屬性。目標是結點的"純度"越來越高

  1.信息增益:

    使用“信息熵”:技術分享技術分享

  信息增益越大,意味使用屬性a劃分所獲得的“純度提升”越大。因此可以使用信息增益進行決策樹的劃分屬性選擇。即在決策樹算法的圖中的第八行選擇屬性a*=argmaxGain(D,a)

  2.增益率

  Gain_ratio(D,a)=Gain(D,a)/IV(a)

  IV(a)=技術分享

  3.基尼指數

  數據集的純度可用基尼值來度量

技術分享

  剪枝:

  如果能為決策樹帶來泛化性能提升,則將該子樹替換為葉結點。

  預剪枝,後剪枝

  連續與缺失值

  二分法、

機器學習--決策樹