第五章決策樹
阿新 • • 發佈:2018-11-23
決策樹是基於特徵(非數字,如年齡,身高特徵)進行分類的過程,通常包括特徵選擇,決策樹的生成,決策樹的剪修。
5.1決策樹模型與學習
5.1.1決策樹模型
決策樹由節點(內節點(特徵或者說屬性)和葉節點(類))和有向邊組成,是一種對例項進行分類的樹形結構。
5.1.2決策樹與if-then
決策樹模型可以看做是if-then的合集,每條路徑構建一條規則,每個例項都能隨此找到對應的分類。
5.1.3決策樹與條件概率分佈
決策樹還表示給定特徵條件下的條件概率分佈(有點類似kd樹)。對特徵空間進行劃分,葉節點上的例項對該處類的條件概率較大,往往偏向該一類。
5.1.4決策樹學習
學習的目的是根據所給的資料集建一個模型樹(確定分類的規則),使他能夠進行正確的分類(預測)。
可以用損失函式(通常是正則化的極大似然函式)量化決策樹學習成績(損失函式小成績高),但從所有損失函式中找到最優解是一個NP問題,不切實際,通過近似求解找到其次優解才是真正需要的。
演算法通常是遞迴選擇各個節點的最優特徵。
5.2特徵選擇
5.2.1特徵選擇問題
通過資訊增益或者資訊增益比定量的選擇有利於分類的特徵。
5.2.2資訊增益
隨機變數X的熵的定義:
(該值始終大於0,通常以2或e為底)
熵越大,隨機變數的不確定性越大,從定義可知:
在隨機變數X的條件下隨機變數Y的條件熵:
(與之前不一樣)
當概率
是由資料估計(特別是極大似然估計)得到的話,所對應的是經驗熵和經驗條件熵
一般的,熵和條件熵的差被稱為互資訊,等價於決策樹學習中的資訊增益:
他表示了特徵A使得資料集D資訊不確定性減少的程度。
資訊增益比:相對資料集而言,並沒有絕對意義。