深度學習基礎-決策樹
阿新 • • 發佈:2019-02-11
理論
一:機器學習中分類和預測演算法的評估
1.準確率
2.速度
3.強壯性
4.可規模性
5.可解釋性
二:什麼是決策樹/判定樹(decision tree)
判定樹是一個類似於流程圖的樹結構,其中,每個內部節點標識在一個屬性上的測試,每個分支代表
一個屬性輸出,而每個樹節點代表類或類分佈,樹的最頂層是根節點
2.機器學習中分類方法中的一個重要演算法:
構造決策樹的基本演算法
熵(entropy)概念:
資訊和抽象,如何度量?
一條資訊的資訊量大小和他的不確定性有直接的關係,要搞清楚一件非常不確定的事情,或者
使我們一無所知的事情,需要了解大量資訊==》資訊量度量就等於不確定性的多少
例子:猜世界盃冠軍,假如一無所知,猜多少次?
每個隊奪冠的機率不是相等的
位元(bit)來衡量資訊的多少
變數的不確定性越大,熵就越大
決策樹歸納演算法(ID3)
選擇屬性判斷節點
資訊獲取量(information Gain) Gain(A)=Info(A)-infor_A(D)
通過A來作為節點分類獲取了多少資訊
其他演算法:c4.5 CART
共同點:都是貪心演算法,自上而下
區別:屬性選擇度量方法不同
如何 處理連續型變臉的屬性?
樹剪枝葉(避免overfitting)
先剪枝
後剪枝
決策樹的優點,缺點:處理連續變數不好,類別較多時,錯誤增加的比較快,可規模性一般
實踐