【深度學習基礎-03】決策樹演算法-熵如何計算舉例

阿新 • • 發佈：2019-01-11

0 機器學習中分類和預測演算法的評估：

1 什麼是決策樹/判定樹decision tree？

0 機器學習中分類和預測演算法的評估：

準確率
速度
強壯性
可否規模性
可否解釋

1 什麼是決策樹/判定樹decision tree？

決策樹是一種類似流程圖的樹結構：其中，每一個內部結點表示在一個屬性上的測試，每個分支代表一個屬性輸出，而每個樹葉結點代表類或類分佈。樹的最頂層是根結點。

2 決策樹“買電腦”實際例子

假設有一個數據集

根據這個資料集我們建立了決策樹

這樣我們如果拿到一個客戶資料，那麼就可以通過這個就決策樹去判斷是否買電腦

3.1熵（entropy）概念：

資訊和抽象，如何度量？

一條資訊的資訊量大小和它的不確定性有直接的關係，要搞清楚一件非常非常不確定的事情，或者是我們一無所知的事情，需要了解大量資訊（資訊量的度量）就是等於不確定性的多少。

舉個例子：32只足球隊踢比賽，假如你對其一無所知，那麼你用二分法猜6次就行了，這個6就是熵的大小，當你對這些球隊有一定了解，那才四五次就行，當你知道其中1只國家隊，31只小學生隊伍，你猜1次就行了，你知道的資訊越多，熵越小，你知道的資訊越少，熵越大。

熵的計算公式如下：P（x）代表發生概率

變數的不確定性越大，熵也就越大。

4 決策樹歸納演算法（ID3）

選擇屬性判斷結點

資訊獲取量（Information Gain） : Gain(A) = Info(D) - Info_A(D)，通過A來作為節點分類獲取了多少資訊

那麼怎麼選擇節點？以下面這個為例子

以“買不買”電腦計算熵：

當附加年齡，“買不買”電腦的熵：（解釋：5個younth,其中有2個yes,3個no；4個middle,其中4個yes,0個no）

通過上面兩個式子計算以年齡為節點的熵：

類似的，Gain(income)=0.029 Gain(student) = 0.151 Gain(credit_rating) = 0.048 ，所以選擇age最為第一個根節點

這樣就以age為根節點，分成了3類，如上圖所示，每一類要分到沒有其他額外選項即可，比如middle_aged都是yes，那其他兩種還是按照上述方法重複計算熵，然後選擇節點，直到滿足判斷條件

4.1遞迴演算法：

遞迴劃分步驟什麼時候會停止：

給定節點的所有樣本屬於同一類

沒有剩餘屬性可以進一步劃分，這樣情況下，使用多數表決，用樣本中的多數所處類標記

沒有樣本

5 其他演算法

C4.5: Quinlan

CART: Classification and Regression Trees

共同點：都是貪心演算法，自上而下

區別：屬性選擇度量方法不同：C4.5（gain ratio） CATR(gini index) ID3(Information Gain)

6 其他概念

樹剪枝葉，避免樹太大了太細：（1）先剪枝（2）後剪枝
決策樹優點：直觀便於理解，小規模資料集有效
決策樹缺點：處理連續變數不好（閾值設定會影響）、類別較多時錯誤增加較快、可規模化效能一般

【深度學習基礎-03】決策樹演算法-熵如何計算舉例

目錄 0 機器學習中分類和預測演算法的評估： 1 什麼是決策樹/判定樹decision tree？ 2 決策樹“買電腦”實際例子 3.1熵（entropy）概念： 4 決策樹歸納演算法（ID3） 4.1遞迴演算法： 5 其他演算法 0 機器學習中分類和

【深度學習基礎-07】神經網路演算法（Neural Network）上--BP神經網路基礎理論

目錄 1 起源 2 多層向前神經網路（Multilayer Feed-Forward Neural Network） 3 設計神經網路 4 交叉驗證方法 5 BP神經網路演算法 1 起源以人腦中的神經網路為啟發，出現過不同的版本最著名的演算法是19

【深度學習基礎1】神經網路基礎--邏輯迴歸

本博文根據 coursera 吳恩達深度學習整理。作為理解神經網路的基礎。一、知識點深度學習本質上是對資料的一種擬合。使用非線性的函式集合作為模型，對樣本對進行損失最小的模擬。首先理解單個神經元的作用和原理，可以從

【深度學習基礎5】深度神經網路的優化與調參(2)

轉載請註明出處。謝謝。本博文根據 coursera 吳恩達 Improving Deep Neural Networks: Hyperparameter tuning, Regularizati

【深度學習基礎-09】神經網路-機器學習深度學習中~Sigmoid函式詳解

目錄 Sigmoid函式常常被用作神經網路中啟用函式雙曲函式tanh(x) Logistic函式拓展對比 Sigmoid函式常常被用作神經網路中啟用函式函式的基本性質：定義域：(−∞,+∞

【深度學習基礎-06】支援向量機SVM（下）-線性不可分

1 SVM的優點

【深度學習基礎-05】支援向量機SVM（上）-線性可分

Support Vector Machine 目錄 1背景 2 機器學習的一般框架 3 什麼是超平面 4 線性可區分（linear separatable）和線性不可區分（linear inseparatable） 5 如何計算超平面以及舉例 1背景 Vladim

【深度學習基礎-04】最鄰近規則分類（K Nearest Neighbor）KNN演算法

1 基本概念 Cover和Hart在1968年提出了最初的臨近演算法分類演算法classfication 輸入基於例項的學習instance-based learning ,懶惰學習lazy learning 2 例子： &n

【深度學習基礎-02】概念學習-例子3則

目錄概念學習：概念學習舉例子1（教小孩子認識小鳥）：概念學習舉例子2（判斷小明是否“享受運動”）概念學習舉例子3（美國矽谷房價的學習）一些基本知識點：概念有兩大分類：監督學習的例子：本部落格基本概念：訓練集、測試集、特徵值、監督學習、非

【深度學習基礎-01】機器學習->引出深度學習

目錄機器學習的應用：深度學習？深度學習什麼時候發展起來的？深度學習能用來幹什麼？深度學習有哪些代表性的學術機構和公司？深度學習的應用？針對經驗E(experience)和一系列的任務T（tasks）和一定表現的衡量P（performance），如果隨著經

【深度學習基礎】《深度學習》李巨集毅

重要知識點：激勵函式（activation function） softmax layer Lecture 1: Introduction of Deep Learning 1. 深度學習的步驟機器學習的步驟： Step 1: 定義一個函式集合(define

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章3.4

【python和機器學習入門2】決策樹2——決策樹構建

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

【深度學習基礎】張量的描述與深度學習常見張量

一些概念深度學習中的所有資料張量的第一個軸都是樣本軸，也稱之為樣本維度。另外，深度學習模型不會同時處理整個資料集，而是將資料拆分成小批量，比如前面的案例就是每次取128個數據作為一個批量。 batch = train_images[:128] # next batch = tr

【深度學習基礎】：線性代數(一)_特徵分解及numpy、scipy實現

一、特徵分解的意義有時，我們會將現實中的某些事物抽象成矩陣的形式，例如可以將一張圖片抽象成一個畫素值組成的矩陣。此時，我們也許希望中將矩陣分解成多個組成部分，這些組成部分代表了這個矩

【深度學習基礎】機器學習的定義與demo展示

機器學習（Machine Learning,ML） 1、定義：研究開發一系列的演算法，不需要外部明顯的指示，只需要資料來學習，建模，並且利用建好的模型和新的輸入來預測的學科。例子：下棋、語音識別、自動駕駛等。學習：E、T、P (經驗、任務、衡量) 2、目前的應用：

【機器學習】決策樹演算法的基本原理

　　參考周志華老師的《機器學習》一書，對決策樹演算法進行總結。　　決策樹(Decision Tree)是在已知各種情況發生概率的基礎上，通過構建決策樹來求取淨現值期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的圖解法。

【深度學習筆記1】如何建立和確定模型正確性？如何優化模型？

近期看了吳恩達的一本書，關於如何建立和確定優化模型？裡面有個人認為需要學習的地方，故做筆記： 1.模型訓練一共有三個資料集：訓練集、開發集（驗證集）、測試集。開發集不能太小，通常在1000-10000，並且測試集屬於同一分佈；2.過擬合：訓練過程中開發集的準確率和測試集測試的準確率差別不大，若開發集比測試集

【Django2x 學習筆記 03】建立path路由url（建立新路由URL，pathinfo模式多個傳參，GET模式多個傳參，返回json）

注意：Django2.1.3 下環境，Python3.7，基於最新的語言和框架的特性。 #1 已新建一個Django專案工程——mysite（假設：F = /django/mysite/ 目錄） django-admin startproject mysite #2&nbs

【深度學習基礎-03】決策樹演算法-熵如何計算舉例

0 機器學習中分類和預測演算法的評估：

1 什麼是決策樹/判定樹decision tree？

2 決策樹“買電腦”實際例子

3.1熵（entropy）概念：

4 決策樹歸納演算法（ID3）

4.1遞迴演算法：

5 其他演算法

相關推薦