Chapter 4 Decision Tree
第四章 決策樹
4.1基本流程
決策樹:由一個根結點(包含所有樣本集)。若干內部結點(屬性測試)和若干葉結點(分類結果)組成。
決策樹是一個遞迴過程,當產生如下三種情況時,會導致遞迴返回:
1.當前節點包含的所有樣本歸屬同一類,無需再分;
2.當前屬性集為空,或所有樣本在該屬性上取值相同;(->葉結點)
3.當前節點包含的樣本集合為空。(->葉結點,並以其父結點所含樣本最多的類別作為該葉結點類別)
4.2劃分選擇(即選取最優劃分屬性)
4.2.1資訊增益
資訊熵:假定樣本集合D中的第k類樣本所佔比例為
,則D的資訊上定義為:
Ent(D)值越小,純度越高。
基於此,考慮每一節點的影響會由於結點包含的樣本數不同而不同,所以給分支結點賦予權重
。用
來記第v個節點包含D中所有在屬性a上的取值為
的樣本數。
資訊增益(information gain):
對應的是以資訊熵減去賦予權重後的資訊熵和,表現在該分支節點劃分不同類別的能力越大,也就是說能夠獲得的純度提升越大。
4.2.2增益率
首先,要注意的是資訊增益準則對於可取多個值的屬性是有偏好的,這並不好,很容易導致嚴重的過擬合。
所以引入著名的C4.5決策樹演算法,不直接使用資訊增益,而是使用資訊增益率:
其中,
稱為屬性的固有值,a的可能取值越多,(V越大),則IV(a)的值通常會越大。這樣,就會使通過過多取值的屬性影響降低(相反,增益率可能多取值少的屬性有所偏好)
小結:C4.5決策樹並不會一上來就找增益率最高的,他會先選出資訊增益高於平均水平的,再從中選出增益率最高的。
4.2.3基尼指數
CART決策樹(Classification and Regression Tree) 所使用的基尼指數是另一種劃分屬性的有效手段,不同於資訊增益中資訊熵用不同類別所佔比例表達樣本集合純度,基尼係數是通過從D中隨機抽取兩個樣本判斷其類別不同的概率,所以Gini(D)越小,D越純,基尼值:
基尼指數(其定義有類似於資訊增益率之處,都引入了
以將分直接點的樣本數考慮進去):
同樣,在候選屬性集合A中,選擇劃分後是的基尼指數最小的屬性優先劃分。
4.3剪枝處理(pruning)
決策樹剪枝有兩個基本策略:
一是**“預剪枝”(在生成決策樹過程中,在劃分節點前先估計判斷該節點劃分是否能帶來決策樹泛化效能的提升–>制止了過多層數的劃分)
一是後剪枝**(在完整的決策樹自下而上的考察,判斷該節點子樹若替換為葉結點是否能帶來泛化效能的提升–>欠擬合風險小,但開銷遠大於預剪枝)。
那麼如何判斷泛化效能是否提升呢?瓜皮書用回了第二章裡的留出法(即劃分訓練集和驗證集)。
4.4連續與缺失值
4.4.1連續值處理
首先,可用連續屬性離散化,這也是C4.5決策樹演算法的策略。將資訊增益稍加改造: