1. 程式人生 > >Machine Learning Series No.4 -- Decision Trees

Machine Learning Series No.4 -- Decision Trees

決策樹

決策樹的總結可以劃分為以下兩個問題:

  • 1.結點如何分裂?

  • 2.如何剪枝?

    剪枝有多重策略,常用的是代價複雜度剪枝(Cost complexity pruning),又叫最弱連線剪枝(weakest link pruning)。

剪枝策略

剪枝策略很多,以下只是一種,在各個演算法中可以選用。

代價複雜度剪枝(Cost complexity pruning)

m=1|T|i:xiRm(yiy^Rm)2+α|T|
這裡∣T∣代表樹 T 中葉結點的數量,R_m 代表第 m 個葉結點對應的矩形(預測器空間的子集),yhat_Rm 是 Rm 的預測值,即 Rm 中訓練樣本預測值的均值(或分類樹中的模式響應)。調整引數 α 控制子樹複雜度之間的權衡,對訓練資料進行擬合。當 α= 0 的時候,子樹 T 等同於 T_0。當α的值增長時,構建具備多個子結點的樹需要付出代價,這樣,要想得到更小的子樹,上述公式將達到最小化。我們可以使用某種交叉驗證方法選擇剪枝引數 α 。

ID3演算法

特徵值為離散特徵。

  • 結點如何分裂?

    選擇能獲得最大資訊增益的特徵值進行分裂。

  • 如何剪枝?

C4.5演算法

特徵值可以為離散特徵,也可以連續特徵。

  • 結點如何分裂?

    1.對於連續特徵值,選擇一定方式將其離散化。

    2.對於離散化處理後的特徵,使用資訊增益比進行特徵的選取進行分裂。

    3.使用資訊增益比可以修正資訊增益對於取值較多特徵的偏好。

  • 如何剪枝?

CART樹

可以分為分類樹、迴歸樹。

目的是將特徵空間R進行分割,分割成R1,R2…。

使得每個R的子空間的輸出值為子空間的樣本的均值(使用平方差作為擬合程度的度量,可得均值是最優解)。

然而同時考慮多個維度的劃分是不可行的,CART樹在劃分時,基於貪心演算法,每次將空間劃分成兩個子空間,然後遞迴劃分兩個空間,這種方法稱為“遞迴二元分割”

1.迴歸樹

  • 結點如何分裂?

    基於二元分割,使用平方和來度量擬合程度,找到使得每次劃分成兩個區域以後的平方損失最小。

  • 如何剪枝?

2.分類樹

  • 結點如何分裂?

    基於二元分割,使用基尼指數度量分割後的純度,選擇分割後,具有較小基尼指數和的特徵值。

  • 如何剪枝

Bagging樹模型

Bootstrap Aggregation – Bagging

1534406881061

上述圖片摘自部落格。

我們可以通過從(單一)訓練資料集提取重複樣本進行自助法(bootstrap)操作。在這種方法中,我們生成了 B 個不同的自助訓練資料集。我們隨後在第 b 個自助訓練資料集得到了一個預測結果,從而獲得一個聚集預測(aggregate prediction)。

這就叫做袋裝(bagging)。注意,聚集(aggregating)在迴歸和分類問題中可能有不同的均值。當平均預測值在迴歸問題中的效果很好時,我們將會需要使用多數票決(majority vote):由於分類問題中的聚集機制,整體預測就是在 B 個預測值中最常出現的那個主要類別。

對於一個樣本,它在某一次含m個樣本的訓練集的隨機取樣中1m。不被採集到的概率為11m。如果m次取樣都沒有被採集中的概率是(11m)m。當m→∞時,(11m)m1e≃0.368。也就是說,在bagging的每輪隨機取樣中,訓練集中大約有36.8%的資料沒有被取樣集採集中。

對於這部分大約36.8%的沒有被取樣到的資料,我們常常稱之為袋外資料(Out Of Bag, 簡稱OOB)。這些資料沒有參與訓練集模型的擬合,因此可以用來檢測模型的泛化能力

隨機森林

理解了bagging演算法,隨機森林(Random Forest,以下簡稱RF)就好理解了。它是Bagging演算法的進化版,也就是說,它的思想仍然是bagging,但是進行了獨有的改進。我們現在就來看看RF演算法改進了什麼。   

首先,RF使用了CART決策樹作為弱學習器,這讓我們想到了梯度提示樹GBDT。第二,在使用決策樹的基礎上,RF對決策樹的建立做了改進,對於普通的決策樹,我們會在節點上所有的n個樣本特徵中選擇一個最優的特徵來做決策樹的左右子樹劃分,但是RF通過隨機選擇節點上的一部分樣本特徵,這個數字小於n,假設為nsub,然後在這些隨機選擇的nsub個樣本特徵中,選擇一個最優的特徵來做決策樹的左右子樹劃分。這樣進一步增強了模型的泛化能力。    

相關推薦

Machine Learning Series No.4 -- Decision Trees

決策樹 決策樹的總結可以劃分為以下兩個問題: 1.結點如何分裂? 2.如何剪枝? 剪枝有多重策略,常用的是代價複雜度剪枝(Cost complexity pruning),又叫最弱連線剪枝(weakest link pruning)。 剪枝策

Machine Learning Series No.5 -- Boosting & Bagging

提升方法 主要可以分為兩大類:Boosting & Bagging Boosting 主要代表演算法是Adaboost。 Boosting策略主要關注降低偏差。 Boosting的基分類器之間彼此序列,每一輪都更新樣本的權重,更

Machine Learning Series No.9 -- HMM(Hidden Markov Model)

隱馬爾科夫模型(Hidden Markov Model, HMM) 1.生成模型,對p(x,y)p(x,y)進行建模 2.符號說明 SYMBOLS meanings

Machine Learning Series No.2 --Logistic Regression

前言 每次上吳恩達老師的機器學習課,總是能帶給我一些不同的東西(恩,換句話說,也就是我之前都學的啥??)。這次終於開始寫邏輯迴歸了,邏輯迴歸真的是一個非常了不起的演算法,恩,學到後來你會發現,誒,怎麼哪裡都有它? 這裡首先向強調的一點是,邏輯迴歸是一個線性分

Machine Learning Series No.6 -- EM algorithm

EM演算法 1.直觀理解 通俗的理解看出就是EM演算法由於不知道隱變數的分佈,先給出引數的隨機初始值,然後根據引數,去得到隱變數的分佈,然後根據隱變數和觀測變數的共同分佈基於最大似然去重新估計引數,知道引數穩定。 2.數學推導 極大似然估計:

AI and machine learning in radiology: 4 things to know

As industry experts continue to explore artificial intelligence (AI) applications in radiology, the question remains of whether AI applications can and wil

Machine Learning - week 4 - 習題

返回 cnblogs -c 乘法 image alt learning png round 1. 第一個。,是對的。 第二個。結果只會認出是一類,如圖:。所以和為 1。 第三個:所有基於 0,1 的邏輯方程都可以使用神經網絡來表示。真值表是有限的,所以可以。

2013 UBC Machine Learning NO.6 Bayesian learning

org bsp AC https inf tps edi wikipedia bayesian https://en.wikipedia.org/wiki/Ba

Machine Learning (4) Classification and Representation

1. Classification and Representation [分類和表達]: 1.1 Classification [分類]: 1.1.1 為了達到分類的目的,一種方法是使用線性迴歸,並將所有大於某值的預測對映為1,而所有預測小於該值的都對映為0。然而,這種

Machine Learning week 4 總結

Multivariate Linear Regression 問題可以由函式表示 函式,本質上就是兩集合的一種對映關係,從輸入值,得到輸出值。同時函式,也是現實世界的一種抽象表示,就如原因對應結果,事件A對應事件B。通常我們只要給一個問題建立起比較好的數學模型,

Machine Learning Yearning(3、4)

Chapter 3、Prerequisites and Notation 預備知識和註釋 ​ 如果你有學習過機器學習課程,比如我在Coursera上的的機器學習MOOC,或者如果你有應用監督學習的經驗,你也將能夠理解這段文字。 ​ 我假設

Top 4 Steps for Data Preprocessing in Machine Learning

Data Processing in the machine learning is a data mining technique. In this process, the raw data gathered and you analyze the data to find a way to transf

Machine Learning with Time Series Data

As with any data science problem, exploring the data is the most important process before stating a solution. The dataset collected had data on Chicago wea

Machine Learning for Humans, Part 4: Neural Networks & Deep Learning

The same thing happens in vision, not just in humans but in animals' visual systems generally. Brains are made up of neurons which "fire" by emitting elect

step Time Series Forecasting with Machine Learning for Household Electricity Consumption

Given the rise of smart electricity meters and the wide adoption of electricity generation technology like solar panels, there is a wealth of electricity

Comparing Features of 4 Popular Machine Learning Platforms

As the world is continuing to develop artificial intelligence and machine learning software, India is also keeping up with the growth. The government of In

Machine learning and decision making

Machine learning and decision makingAs part of my role at the Digital Catapult I recently participated in theThe Royal Society’s investigation of machine l

4 Challenges Faced by Organizations before Venturing into Machine Learning

Businesses contemplating to implement machine learning (ML) are faced with a number of challenges, ranging from the ignorance of its benefits to the inadeq

4 ways to use machine learning to improve customer experience 7wData

In a digital business environment, providing a quality customer experience -- on multiple digital fronts -- is not only a crucial aspect in modern business

I made a machine learning chicken rice classifier in ~4 hours to tell me what type of chicken rice…

I made a machine learning chicken rice classifier in ~4 hours to tell me what type of chicken rice I bought for lunchThis entire frivolous episode started