五、決策樹--統計學習方法總結
五、決策樹
決策樹(decision tree)是一種基本的分類與迴歸方法,這裡主要討論用於分類的決策樹。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要的有點是模型具有可讀性,分類速度快,學習時利用訓練資料,根據損失函式最小化的原則簡歷決策樹模型。決策樹的學習通常包括三個步驟:特徵選擇,決策樹的生成和決策樹的修剪。
5.1決策樹模型與學習
5.1.1決策樹模型
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點(node)和有向邊(directed edge)組成。結點有兩種型別:內結點(internal node)和葉結點(leaf node)。內部結點表示一個特徵或者屬性,葉結點表示一個類
5.1.2決策樹與if-then規則
可以將決策樹看成是一個if-then規則的集合。將決策樹轉化成if-then規則的過程是這樣的:由決策樹的根結點到葉結點的每一條路徑構建一條規則;路徑上內部結點的特徵對應著規則的條件,而葉結點的類對應著規則的結論。
5.1.3決策樹與條件概率分佈
決策樹還表示給定特徵條件下的類的條件概率分佈。這一條件概率分佈定義在特徵空間的一個劃分(partition)上。將特徵空間劃分為互不相交的單元(cell)或者區域(region),並在每個單元定義一個類的概率分佈就構成了一個條件概率分佈。
5.1.4決策樹學習
決策樹學習,假設給定訓練資料集
其中,
決策樹學習本質上是從訓練資料集中歸納出一組分類規則。我們需要的是一個與訓練資料矛盾較小的決策樹,同時具有很好的泛化能力。另一個角度看,決策樹學習是由訓練資料集估計條件概率模型。我們選擇的條件概率模型應該不僅對訓練資料有很好的擬合,而且對未知資料有很好的預測。
決策樹學習用損失函式表示這一目標。如下所述,決策樹學習的損失函式通常是正則化的極大似然函式。決策樹學習的策略是以損失函式為目標函式的最小化。
當損失函式確定以後,學習問題就變為在損失函式意義下選擇最優決策樹的問題。因為從所有可能的決策樹中選取最優決策樹是NP完全問題(NP的英文全稱是Non-deterministic Polynomial的問題,即多項式複雜程度的非確定性問題),所以現實中決策樹學習演算法通常採用啟發式方法,近似求解這一最優化問題。這樣得到的決策樹是次最優(sub-optimal)的。
決策樹學習的演算法通常是一個遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割,使得對各個子資料集有一個最好的分類的過程。
5.2特徵選擇
5.2.1特徵選擇問題
特徵選擇在於選取對訓練資料具有分類能力的特徵。這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。經驗上扔掉這樣的特徵對決策樹學習的精度影響不大。通常特徵選擇的準則是資訊增益或資訊增益比。
5.2.2資訊增益
在資訊理論與概率統計中,熵(entropy)是表示隨機變數不確定性的度量。設
則隨機變數
通常上式中的對數以2為底或者以自然對數
熵越大,隨機變數的不確定性就越大。從定義可以驗證
當隨機變數只取兩個值,例如
熵為
這時,熵
當
設有隨機變數
條件熵
當熵和條件熵中的概率由數理統計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。此時若有0概率,則令
資訊增益(information gain)表示得知特徵
特徵
相關推薦
五、決策樹--統計學習方法總結
五、決策樹 決策樹(decision tree)是一種基本的分類與迴歸方法,這裡主要討論用於分類的決策樹。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要的有點是模型具有可讀性,分類速度快,學習時利用訓練資
【統計學習方法-李航-筆記總結】五、決策樹
本文是李航老師《統計學習方法》第五章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://blog.csdn.net/u014248127/article/details/78971875 https://www.cnblogs.com/YongSun/p/4767085.ht
統計學習方法總結、應用對比
下面主要從模型、策略、演算法、應用四方面來對10種統計學習方法,進行歸類總結。 方法 模型 策略 演算法 應用 感知機 超平面模型 極小化誤分點距離 隨
統計學習方法五 決策樹分類
回歸 element row tps 樣本 pan 類別 表示 splay 決策樹分類 1,概念 2,決策樹算法 2.1,特征選擇: 熵:值越大,不確定性因素越大;條件熵:條件對結果的影響不確定性;信息增益;信息增益比
統計學習方法學習筆記《五》——決策樹
引言 預測問題:分類和迴歸 資料分類是大資料分析的一種重要手段,在已有的資料集上學習到一個預測模型,用於對未知資料進行分類。當該模型預測結果是離散且無序的話,可以看成是某個特定類別的資料集(class label), 反之,當該模型預測結果是實數或者有序的話
李航《統計學習方法》——第五章 決策樹模型
由於網上資料很多,這裡就不再對演算法原理進行推導,僅給出博主用Python實現的程式碼,供大家參考 適用問題:多類分類 三個步驟:特徵選擇、決策樹的生成和決策樹的剪枝 常見的決策樹演算法有: ID3:特徵劃分基於資訊增益 C4.5:特徵劃分基於資訊增益
李航 統計學習方法 第五章 決策樹 課後 習題 答案
決策樹是一種基本的分類和迴歸方法。決策樹呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間和類空間上的條件概率分佈。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。預測時,對
《統計學習方法(李航)》講義 第05章 決策樹
lan 定義 if-then 利用 建立 then 統計 來源 根據 決策樹(decision tree) 是一種基本的分類與回歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特征對實例進行分類的過程。它可以認為是if-then
【統計學習方法-李航-筆記總結】十一、條件隨機場
本文是李航老師《統計學習方法》第十一章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767734.html 主要內容: 1. 概率無向圖模型 2. 條件隨機場的定義與形式 3. 條件隨機
【統計學習方法-李航-筆記總結】十、隱馬爾可夫模型
本文是李航老師《統計學習方法》第十章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767667.html https://www.cnblogs.com/naonaoling/p/5701634.html htt
【統計學習方法-李航-筆記總結】九、EM(Expectation Maximization期望極大演算法)演算法及其推廣
本文是李航老師《統計學習方法》第九章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767517.html https://blog.csdn.net/u010626937/article/details/751160
【統計學習方法-李航-筆記總結】八、提升方法
本文是李航老師《統計學習方法》第八章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767513.html 主要內容包括: 1. 提升方法AdaBoost演算法 2. AdaBoost演算法的訓練誤差分析
【統計學習方法-李航-筆記總結】七、支援向量機
本文是李航老師《統計學習方法》第七章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://www.cnblogs.com/YongSun/p/4767130.html https://blog.csdn.net/wjlucc/article/details/69376003
【統計學習方法-李航-筆記總結】六、邏輯斯諦迴歸和最大熵模型
本文是李航老師《統計學習方法》第六章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: http://www.cnblogs.com/YongSun/p/4767100.html https://blog.csdn.net/tina_ttl/article/details/53519391
【統計學習方法-李航-筆記總結】四、樸素貝葉斯法
本文是李航老師《統計學習方法》第四章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: https://blog.csdn.net/zcg1942/article/details/81205770 https://blog.csdn.net/wds2006sdo/article/detail
【統計學習方法-李航-筆記總結】三、k近鄰法
本文是李航老師《統計學習方法》第三章的筆記,歡迎大佬巨佬們交流。 主要參考部落格:https://blog.csdn.net/u013358387/article/details/53327110 主要包括以下幾部分: 1. k近鄰演算法 2. k近鄰模型 3. kd樹 1.
統計學習方法 | 決策樹
01 決策樹定義 今天我們來學習另一種分類方法——決策樹 在開始學習之前,先提出一個問題: 這三種分類方法的區別是什麼呢?分別適用什麼場景呢? 好了,帶著疑問,我們開始學習決策樹~ 決策樹是什麼? 它是一種基本的分類與迴歸的方法,可以認為是if-then
統計學習方法 李航 決策樹
決策樹 一.決策樹基本描述 決策樹是一種基本的分類與迴歸方法,呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程.學習時,利用訓練資料根據損失函式最小化的原則建立決策樹模型.預測時,對新的資料,利用決策樹模型進行分類.而學習又通常包括三個步驟:特徵選擇,決策樹生成,決策樹修剪. 二.決策樹模
《統計學習方法(李航)》決策樹學習方法
作者:jliang https://blog.csdn.net/jliang3 1.重點歸納 1)特徵選擇依據 ID3:資訊增益最大: C4.5:資訊增益比最大: ,n為特徵A的取值個數,Di為特徵A第i個取值的集合 CART
統計學習方法 李航---第5章 決策樹
第5章 決策樹 決策樹(decision tree)是一種基本的分類與迴歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要