決策樹(二)
阿新 • • 發佈:2018-11-28
也可以說,資訊量度量的是一個具體事件發生了所帶來的資訊,而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。即:
1.2 條件熵(可以理解為在給定某種條件下弄清這件事所需要的資訊量,其中給定某種條件後給決策樹補充了資訊量)
對於條件熵的具體理解:
我們的條件熵的定義是:定義為X給定條件下,Y的條件概率分佈的熵對X的數學期望。
1.3 資訊增益
2.決策樹的生成
決策樹學習本質上是從訓練資料集中歸納出一組分類規則。與訓練資料集不相矛盾的決策樹(即能對訓練資料進行正確分類的決策樹)可能有多個,也可能一個也沒有。我們需要的是一個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。
決策樹學習的演算法(生成決策樹)通常是一個遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有一個最好的分類的過程。這樣一來,對於每一次遞迴選擇特徵時就顯得格外重要。
特徵選擇在於選取對訓練資料具有分類能力的特徵。這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。那麼此時通常特徵選擇的準則就是我們前面談到的資訊增益。
決策樹的剪枝: