1. 程式人生 > >決策樹(二)

決策樹(二)

  也可以說,資訊量度量的是一個具體事件發生了所帶來的資訊,而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。即:

H(x)=-sum (p(x)log_{2}p(x) )

1.2 條件熵(可以理解為在給定某種條件下弄清這件事所需要的資訊量,其中給定某種條件後給決策樹補充了資訊量)

   關於條件熵的兩篇部落格:文章1文章2文章3

   

對於條件熵的具體理解:

我們的條件熵的定義是:定義為X給定條件下,Y的條件概率分佈的熵對X的數學期望。

  1.3 資訊增益

2.決策樹的生成

決策樹學習本質上是從訓練資料集中歸納出一組分類規則。與訓練資料集不相矛盾的決策樹(即能對訓練資料進行正確分類的決策樹)可能有多個,也可能一個也沒有。我們需要的是一個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。

決策樹學習的演算法(生成決策樹)通常是一個遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有一個最好的分類的過程。這樣一來,對於每一次遞迴選擇特徵時就顯得格外重要。

特徵選擇在於選取對訓練資料具有分類能力的特徵。這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。那麼此時通常特徵選擇的準則就是我們前面談到的資訊增益。

 

決策樹的剪枝: