李航統計學習方法習題5.1
定義5.3(資訊增益比)特徵A對訓練資料集D的資訊增益比定義為其資訊增益與訓練資料集D關於特徵A的值的熵之比,即
其中,,n是特徵A的取值個數。(書本原定義)
習題5.1:根據表5.2所表示的訓練資料集,利用資訊增益比(C4.5演算法)生成決策樹。
由題意知:
由於的資訊增益比最大,所以選擇特徵作為根節點的特徵,得到
對於D2再計算資訊增益比得
選擇特徵A2作為D2的根節點
該決策樹只用了兩個特徵!與書本的例題相一致。
相關推薦
李航統計學習方法習題5.1
定義5.3(資訊增益比)特徵A對訓練資料集D的資訊增益比定義為其資訊增益與訓練資料集D關於特徵A的值的熵之比,即
李航-統計學習方法-習題-第九章
9.2 證明引理 9.2. 引理 9.2 若P~θ(Z)=P(Z∣Y,θ)\widetilde P_\theta(Z)=P(Z|Y,\theta)Pθ(Z)=P(Z∣Y,θ),則 F(P~,θ)=lo
李航·統計學習方法筆記·第6章 logistic regression與最大熵模型(1)·邏輯斯蒂迴歸模型
第6章 logistic regression與最大熵模型(1)·邏輯斯蒂迴歸模型 標籤(空格分隔): 機器學習教程·李航統計學習方法 邏輯斯蒂:logistic 李航書中稱之為:邏輯斯蒂迴歸模型 周志華書中稱之為:對數機率迴歸模
李航 統計學習方法 第五章 決策樹 課後 習題 答案
決策樹是一種基本的分類和迴歸方法。決策樹呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間和類空間上的條件概率分佈。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。預測時,對
李航—統計學習方法筆記(一)
什麼是獨立同分布? 百度: 在概率統計理論中,指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立,是指X1的取值不影響X2的取值,X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈,這意味著X1和X2具有
李航 統計學習方法 查缺補漏
矩陣的微積分 https://zhuanlan.zhihu.com/p/28956839 獨立同分布 歐式空間 標註問題 聯合概率分佈 貝葉斯統計 https://www.zhihu.com/question/21134457 似然函式和概率密度函式 https://www.zhihu.co
李航統計學習方法之樸素貝葉斯法(含python及tensorflow實現)
樸素貝葉斯法 樸素貝葉斯法數學表示式 後驗概率最大化的含義 樸素貝葉斯是一個生成模型。有一個強假設:條件獨立性。我們先看下樸素貝葉斯法的思想,然後看下條件獨立性具體數學表示式是什麼樣的。
演算法工程師修仙之路:李航統計學習方法(一)
第1章 統計學習方法概論 統計學習 統計學習的特點 統計學習(statistical learning)是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科,統計學習也稱為統計機器學習(statistical machine learnin
李航 統計學習 採用C4.5演算法構建決策樹
from numpy import * from math import log import operator def calcShannonEnt(dataset): numdataset=len(dataset) labelCount={}
李航-統計學習方法筆記(一):統計學習方法概論
對象 統計學 技術分享 精確 結束 人的 發生 abs 速度 本系列筆記,主要是整理統計學習方法的知識點和代碼實現各個方法,來加強筆者對各個模型的理解,為今年找到好工作來打下基礎。 計劃在一個月內更新完這本書的筆記,在此立一個flag: 從2019/2/17開始 到 20
統計學習方法筆記7.1
第七章 支援向量機 支援向量機(support vector machines,SVM)是一種二類分類模型,基本模型是定義在特徵空間上的間隔最大的線性分類器。 7.1 線性可分支援向量機與硬間隔最大化 7.1.1 線性可分支援向量機 支援向量機的學習都是在特徵空
統計學習方法(5)整合學習(提升方法)
統計學習方法(4)整合學習(提升方法) 1、Bagging: 基於並行策略:基學習器之間不存在依賴關係,可同時生成。 基本思路: 利用自助取樣法對訓練集隨機取樣,重複進行 T 次; 基於每個取樣集訓練一個基學習器,並得到 T 個基學習器; 預測時,集體投票決策
《統計學習方法》第1章 課後題答案
1.1 說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值為0與1的隨機變數上的概率分佈。假設觀測到伯努利模型n次獨立的資料生成結果,其中k次的結果為1,這時可以用
第一章 統計學習方法概論 —— 第1~3節 統計學習及監督學習的簡介、損失函式及風險函式的公式化表達
關於統計學習方法的知識,參考書《統計學習方法》,李航著,清華大學出版社。 所有章節的符號表示、公式表示都是統一化的。 第一章 統計學習方法概論 第一節 統計學習 一、概念 所謂統計學習,指的是基於已知資料構建統計模型,從而對未知資料進行預測。 二、分類 監督學習(super
統計學習方法 李航---第5章 決策樹
第5章 決策樹 決策樹(decision tree)是一種基本的分類與迴歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要
統計學習方法 李航 第一章習題
1.1說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值為0和1的隨機變數上的概率分佈。假設觀測到的伯努利模型n次獨立資料生成結果,其中k次的結果為1,這時可以用極大似然估計或貝葉斯估計來估計結果為1的概率。
每月學習數理統計--《統計學習方法—李航》(1)
分類 bsp 小白 總結 統計學 乘法 入門 回歸 ova 現在這本書已經看完70%,在看完後我將會將每一章的內容按照自己的理解並結合其他書籍包括<<統計機器學習導論>>[1] ,<<機器學習>>[2],<&l
統計學習方法 李航 第二章習題
2.1Minsky和Papert指出:感知機因為是線性模型,所以不能表示複雜的函式,如異或。驗證感知機為什麼不能表示異或 明顯可知異或不具有線性可分性,由感知機定義可知,感知機不能表示異或。
《統計學習方法(李航)》講義 第04章 樸素貝葉斯
ima .cn 效率 常用 1-1 估計 實現 技術 com 樸素貝葉斯(naive Bayes) 法是基於貝葉斯定理與特征條件獨立假設的分類方法。對於給定的訓練數據集,首先基於特征條件獨立假設學習輸入/輸出的聯合概率分布;然後基於此模型,對給定的輸入x,利用貝
《統計學習方法(李航)》講義 第05章 決策樹
lan 定義 if-then 利用 建立 then 統計 來源 根據 決策樹(decision tree) 是一種基本的分類與回歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構,在分類問題中,表示基於特征對實例進行分類的過程。它可以認為是if-then