統計學習筆記12
阿新 • • 發佈:2018-11-26
CART演算法:
-
CART演算法是在給定輸入隨機變數X的條件下輸出分類Y的條件概率分佈的學習方法;CART演算法假設樹是二叉樹,內部結點是“是”或“否”,左邊結點為“是”,右邊結點為“否”;遞迴地二分每個特特徵,即將輸入空間(特徵空間)劃分為有限個單元,並在這些單元上預測概率分佈
-
CART演算法由以下兩步組成:(1)決策樹的生成(基於訓練資料集生成決策樹,生成的決策樹要儘量大) (2)決策樹的剪枝 (用驗證資料集對已生成子樹進行剪枝,選擇最優子樹,這時以損失函式最小作為標準
CART生成:
決策樹的生成過程就是遞迴地構建二叉決策樹的過程,對迴歸樹採用平方誤差最小化準則進行特徵選擇,對分類樹用基尼指數最小化準則進行特徵選擇,並生成二叉樹
- 迴歸樹的生成:
- 分類樹的生成:
首先,我們來了解一下基尼指數的概念:
演算法停止計算的條件是結點中的樣本個數小於預定閥值或樣本集的基尼指數小於預定閥值(樣本基本屬於同一類),或者是沒有更多特徵
CART的剪枝:
CART演算法從“完全生長”的決策樹底端剪去一些子樹,使決策樹變小(模型變簡單),從而能對未知資料更好地預測;CART演算法由兩步組成,首先從生成演算法產生的決策樹To底端開始剪枝,直到To的根結點,形成一個子樹序列 {To,T1,T2,······};之後通過交叉驗證法在獨立的驗證資料集上對子樹序列進行測試,找出最優子樹
- 剪枝過程中用損失函式作為標準,在損失函式相同的情況下選擇結點更少的子樹