決策樹理解
阿新 • • 發佈:2018-11-02
fun ont 信息熵 統計學 UNC 會有 car 信息 過程
一.ID3
1.李航統計學習書上寫:ID3相當於用極大似然法進行概率模型的選擇。這句話鄒博的回答是:從ID3的構建樹過程而言,它可以看成使用貪心算法得到近似最優的一顆決策樹,它無法保證是最優的。李航《統計學習方法》中這句話,應該是ID3提出時使用的理論依據,可以參考J.R. QUINLAN的" Induction of Decision Trees ",我簡略看了下,我個人感覺,應該是他引用的更早的文獻,使用最大似然估計方法推導得到了信息增益。 應該可以先這麽理解。
2.ID3決策樹可以有多個分支,但是不能處理特征值為連續的情況。
3.ID3采用的信息增益度量存在一個缺點,它一般會優先選擇有較多屬性值的Feature,因為屬性值多的Feature會有相對較大的信息增益?(信息增益反映的給定一個條件以後不確定性減少的程度,必然是分得越細的數據集確定性更高,也就是條件熵越小,信息增益越大)
二。C4.5
C4.5中是用信息增益比率(gain ratio)來作為選擇分支的準則。信息增益比率通過引入一個被稱作分裂信息(Split information)的項來懲罰取值較多的Feature。除此之外,C4.5還彌補了ID3中不能處理特征屬性值連續的問題。但是,對連續屬性值需要掃描排序,會使C4.5性能下降
三。CART
1.相比ID3和C4.5,CART應用要多一些,既可以用於分類也可以用於回歸
2.CART分類時,使用基尼指數(Gini)來選擇最好的數據分割的特征,gini描述的是純度,與信息熵的含義相似。CART中每一次叠代都會降低GINI系數
3.回歸時使用均方差作為loss function
決策樹理解