1. 程式人生 > >深度學習基礎-決策樹

深度學習基礎-決策樹

理論

一:機器學習中分類和預測演算法的評估

   1.準確率

   2.速度

   3.強壯性

   4.可規模性

   5.可解釋性

二:什麼是決策樹/判定樹(decision tree)

    判定樹是一個類似於流程圖的樹結構,其中,每個內部節點標識在一個屬性上的測試,每個分支代表

一個屬性輸出,而每個樹節點代表類或類分佈,樹的最頂層是根節點


2.機器學習中分類方法中的一個重要演算法:

    構造決策樹的基本演算法

    

熵(entropy)概念:

資訊和抽象,如何度量?

一條資訊的資訊量大小和他的不確定性有直接的關係,要搞清楚一件非常不確定的事情,或者

使我們一無所知的事情,需要了解大量資訊==》資訊量度量就等於不確定性的多少

例子:猜世界盃冠軍,假如一無所知,猜多少次?

每個隊奪冠的機率不是相等的

位元(bit)來衡量資訊的多少


變數的不確定性越大,熵就越大


決策樹歸納演算法(ID3)

選擇屬性判斷節點

資訊獲取量(information Gain) Gain(A)=Info(A)-infor_A(D)

通過A來作為節點分類獲取了多少資訊

其他演算法:c4.5 CART

共同點:都是貪心演算法,自上而下

區別:屬性選擇度量方法不同

如何 處理連續型變臉的屬性?

樹剪枝葉(避免overfitting)

先剪枝

後剪枝

決策樹的優點,缺點:處理連續變數不好,類別較多時,錯誤增加的比較快,可規模性一般

實踐