決策樹知識點整理
阿新 • • 發佈:2018-12-29
- 目的:為了讓模型的不確定性降低的越快越好
- 三個過程:特徵選擇、決策樹的生成、決策樹的剪枝
(1)特徵選擇:
資訊熵:隨機變數不確定性的度量
資訊增益:(ID3演算法),得知特徵X的資訊而使類Y的資訊的不確定減少的程度
information gain作為劃分訓練資料集的特徵,存在偏向於選擇取值較多的特徵問題。
(對於取值多的屬性如連續型數值,這個單獨的屬性就可以劃分所有的樣本,使得所有分支下的樣本集合都是“純的”,最極端的情況是每個葉子節點只有一個樣本。這樣的劃分是極為不合理的。)
資訊增益率
GINI指數:(CART演算法)
(2)決策樹的生成
遞迴選擇最優特徵(資訊增益、資訊增益比最大,GINI最小)
遞迴停止條件:
a. 當前結點包含的樣本全部屬於同一個類別,無需劃分
b.當前的屬性集為空,或是所有樣本在所有屬性上的取值相同,無法劃分(小於或者大於某個閾值)
c.當前結點包含的樣本集合為空,不能劃分
(3)決策樹的剪枝
目的:減輕過擬合現象
方法:預剪枝和後剪枝
預剪枝
後剪枝是先從訓練集合生成一棵完整的決策樹,然後自頂向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點帶來決策樹泛化效能提升,則將該子樹替換為葉結點。
預剪枝基於貪心本質禁止這些分支展開,給預剪枝決策樹帶來欠擬合的風險
後剪枝基於極小化決策樹整體的損失函式的思想進行剪枝,時間開銷較大; - 目標函式:最小化損失函式
- 損失函式:正則化的極大似然函式
損失化左邊為經驗風險最小化,右邊實現了結構風險最小化(正則化項) - 決策迴歸樹CART(二叉決策樹)
準則:平方誤差最小化
將輸入空間劃分為M個單元,每個單元有一個固定的輸出值(有點像變成一個多分類問題,只是現在結果不是一個類而是一個值)
過程:啟發式
a. 固定輸入變數j尋找最優切分點s,遍歷所有輸入變數,尋找最優的切分變數j
b. 用劃分區域並決定相應的輸出值
c. 遞迴呼叫a,b
d.