機器學習——決策樹和隨機森林演算法

阿新 • • 發佈：2018-11-21

認識決策樹

決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-then結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。

下面以一個問題引出決策樹的思想

這個問題用圖來表示就是這樣:

為什麼先把年齡放在第一個呢，下面就是一個概念:資訊熵

資訊熵

單位為位元

公式為:

資訊和消除不確定性是相聯絡的

資訊熵越大不確定性越大

決策樹的劃分依據：資訊增益

特徵A對訓練資料集D的資訊增益g(D,A),定義為集合D的資訊熵H(D)與特徵A給定條件下D的資訊條件熵H(D|A)之差，即公式為:

g(D,A)=H(D)-H(D|A) H(D)初始資訊熵大小

資訊增益:當得知一個特徵條件之後，減少的資訊熵的大小。

注意:資訊增益表示得知特徵X的資訊而使得類Y的資訊的不確定性減少的程度

下面用一個例子來說明

ID	年齡	有工作	有自己的房子	信貸情況	類別
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

H(D)=-(9/15log9/15+6/15(6/15)) 總的資訊熵大小

g(D,年齡)=H(D)-H(D'|年齡)=0.971-[1/3H(青年)+1/3H(中年)+1/3H(老年)]

H(青年)=-(2/5log2/5+3/5log3/5)

H(中年) =-(2/5log2/5+3/5log3/5)

H(老年)=-(1/5log1/5+4/5log4/5)

決策樹的分類依據之一:資訊增益

常見決策樹使用的演算法

資訊增益最大原則

C4.5

資訊增益比最大的準則即資訊增益比上原來的H(D)的比值大小

CART

迴歸樹:平方誤差

分類樹:基尼係數最小的準則在sklearn中可以選擇劃分的預設原則

sklearn決策樹API

class sklearn.tree.DescisionTreeClassifier(criterion='gini',max_depth=None.random_state=None)

決策樹分類器
criterion:預設是'gini'係數,也可以選擇資訊增益的熵'entropy'
max_depth:樹的深度大小
random_state:隨機數種子
method:
decision_path"返回決策樹的路徑

下面用一個例項說明:

預測泰坦尼克號人員的存活情況

部分資料截圖如下:

程式碼如下:

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
import pandas as pd
def decision():
    """
    決策樹對泰坦尼克號進行預測生死
    :return:
    """
    #獲取資料
    titan=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    #處理資料，找出特徵值和目標值
    x=titan[['pclass','age','sex']] #特徵值
    y=titan['survived']    #目標值
    #缺失值處理
    x['age'].fillna(x['age'].mean(),inplace=True)
    #分割資料集到訓練集合測試集
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)
    #進行處理(特徵工程) 特徵=》 類別=》 one_hot編碼
    dict=DictVectorizer(sparse=False)
    x_train=dict.fit_transform(x_train.to_dict(orient="records"))
    print(dict.get_feature_names())
    x_test=dict.transform(x_test.to_dict(orient="records"))
    #用決策樹進行預測
    dec=DecisionTreeClassifier(max_depth=5)
    dec.fit(x_train,y_train)
    #預測準確率
    print(dec.score(x_test,y_test))
    return None
    
if __name__=="__main":
    decision()

執行結果如下:

決策樹的優缺點

優點:

簡單的理解和解釋，樹木視覺化。
需要很少的資料準備，其他技術通常需要資料歸一化。

缺點:

決策樹學習者可以建立不能很好地推廣資料的過於複雜的樹，這被稱為過擬合。

改進:

剪枝cart演算法(決策樹API當中已經實現，隨機森林引數調優有相關介紹)
隨機森林

隨機森林

整合學習方法

整合學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型，各自獨立地學習和作出預測。這些預測最後結合成單預測，因此優於任何一個單分類的做出預測。

隨機森林建立多個決策樹的過程: N個樣本，M個特徵

單個樹建立過程:

隨機在N個樣本當中選擇一個樣本，重複N次
隨機在M個特徵當中選出m個特徵 m取值

建立多棵決策樹，樣本，特徵大多不一樣隨機有放回，建立決策樹

採取bootstrap抽樣

為什麼要隨機抽樣訓練集?

如果不進行隨機抽樣，每棵樹的訓練集都一樣，那麼最終訓練出的樹分類結果也是完全一樣的

為什麼要有放回地抽樣？

如果不是有放回的抽樣，那麼每棵樹的訓練樣本都是不同的，都是沒有交集的，這樣每棵樹都是"有偏的",都是絕對"片面的,也就是說每棵樹訓練出來都是有很大的差異的；而隨機森林最後分類取決於多棵樹(弱分類器)的投票表決。

隨機森林API

class sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,bootstrap=True,random_state=None)

隨機森林分類器
n_estimators:integer,optional(default=10)森林裡的數木數量120,200,300,500,800,1200
criteria:string,可選(defalut="gini")分割特徵的測量方法
max_depth:integer或None,可選(預設=無)樹的最大深度 5,8,15,25,30
max_features="auto"，每個決策樹的的最大特徵數量
bootstrap:boolean,optional(default=True)是否在構建樹使用放回抽樣

程式碼如下所示:

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import pandas as pd
def decision():
    """
    決策樹對泰坦尼克號進行預測生死
    :return:
    """
    #獲取資料
    titan=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    #處理資料，找出特徵值和目標值
    x=titan[['pclass','age','sex']] #特徵值
    y=titan['survived']    #目標值
    #分割資料集到訓練集合測試集
    x['age'].fillna(x['age'].mean(),inplace=True)
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)
    #進行處理(特徵工程) 特徵=》 類別=》 one_hot編碼
    dict=DictVectorizer(sparse=False)
    x_train=dict.fit_transform(x_train.to_dict(orient="records"))
    print(dict.get_feature_names())
    rf=RandomForestClassifier()
    param={"n_estimators":[120,200,300,500,800,1200],"max_depth":[5,8,15,25,30]}
    #網格搜尋與交叉驗證調優
    gc=GridSearchCV(rf,param_grid=param,cv=2)
    gc.fit(x_train,y_train)
    print("預測準確率為:",gc.score(x_test,y_test))
    print("檢視選擇的引數模型:",gc.best_params_)
if __name__=="__main":
    decision()

執行結果如下:

隨機森林的優點

在當前所有演算法中，具有極好的準確率
能夠有效地執行在大資料集上
能夠處理具有高維特徵的輸入樣本，而且不需要降維
能夠評估各個特徵在分類問題上的重要性

機器學習——決策樹和隨機森林演算法

認識決策樹決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-then結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。下面以一個問題引出決策樹的思想這個問題用圖來表示就是這樣: 為什麼先把年齡放在第一個呢，下面就是一個概念:資訊熵資訊熵

決策樹和隨機森林演算法

決策樹和隨機森林都是常用的分類演算法，它們的判斷邏輯和人的思維方式非常類似，人們常常在遇到多個條件組合問題的時候，也通常可以畫出一顆決策樹來幫助決策判斷。本文簡要介紹了決策樹和隨機森林的演算法以及實現，並使用隨機森林演算法和決策樹演算法來檢測FTP暴力破解和PO

《web安全之機器學習入門》第6章決策樹與隨機森林演算法

決策樹識別pop3埠掃描（原書中識別暴力破解，實際上pop3協議的並沒有guess_passwd型別的資料，所以改為識別port_sweep.）：待分析資料集：KDD-99資料集，連結：http://kdd.ics.uci.edu/databases/kddcup99/kdd

R語言︱決策樹族——隨機森林演算法

筆者寄語：有一篇《有監督學習選擇深度學習還是隨機森林或支援向量機?》（作者Bio：SebastianRaschka）中提到，在日常機器學習工作或學習中，當我們遇到有監督學習相關問題時，不妨考慮下先用簡單的假設空間（簡單模型集合），例如線性模型邏輯迴歸。若效果不好，也即並沒達到你的預期或評判效果基

在OpenCV中實現決策樹和隨機森林

目錄 1.決策樹 2.隨機森林 1.決策樹需要注意的點： Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//檔名

機器學習之Bagging 與隨機森林演算法

在整合學習裡面，有兩種流派，一個是 boosting 流派，它的特點是對於各個學習器之間有著相互依賴的關係（比如說在某一次演算法結束後，分類錯誤的樣本會增大比例，以引起下一次的訓練時候的關注度），另一種是bagging 流派，它的特點是各個學習器之間沒有任何的

R語言之決策樹和隨機森林

總結決策樹之前先總結一下特徵的生成和選擇，因為決策樹就是一種內嵌型的特徵選擇過程，它的特徵選擇和演算法是融合在一起的，不需要額外的特徵選擇。一、特徵生成：特徵生成是指在收集資料之時原始資料就具有的資料特徵，這些資料特徵由收集的資料決定（其實也就是在產品定型時設定的需要收

Python 資料科學手冊 5.8 決策樹和隨機森林

5.8 決策樹和隨機森林之前，我們深入研究了簡單的生成分類器（見樸素貝葉斯分類）和強大的辨別分類器（參見支援向量機）。這裡我們來看看另一個強大的演算法的動機 - 一種稱為隨機森林的非引數演算法。隨機森林是組合方法的一個例子，這意味著它依賴於更簡單估計

決策樹和隨機森林

三種決策樹的剪枝過程演算法相同，區別僅是對於當前樹的評價標準不同：資訊增益（ID3），資訊增益率（C4.5），基尼指數（CART）一個屬性的資訊增益越大，表明屬性對樣本的熵減少的能力越強。這個屬性使得資料由不確定性變為確定性的能力越強。決策樹的評價：對於決策樹的某

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

在本文中，我們將以Scikit學習的決策樹和隨機森林預測NBA獲勝者。美國國家籃球協會（NBA）是北美主要的男子職業籃球聯賽，被廣泛認為是首屈一指的男子職業籃球聯賽在世界上。它有30個團隊（美國29個，

決策樹和隨機森林用 python treeinterpreter實現

示例說明這個部落格深入到決策樹和隨機森林的基礎上，以便更好地解釋它們。在過去的幾年中，隨機森林是一種新興的機器學習技術。它是一種基於非線性樹的模型，可以提供精確的結果。然而，大多是黑箱，通常很難解釋和充分理解。在本文中，我們將深入瞭解隨機森林的基本知

深入瞭解機器學習決策樹模型——C4.5演算法

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第22篇文章，我們繼續決策樹的話題。上一篇文章當中介紹了一種最簡單構造決策樹的方法——ID3演算法，也就是每次選擇一個特徵進行拆分資料。這個特徵有多少個取值那麼就劃分出多少個分叉，整個建樹的過程非常簡單。如果錯過了上篇

機器學習決策樹隨機森林演算法

決策樹概念有關決策樹的理論參考: https://blog.csdn.net/gunhunti4524/article/details/81506012 不再贅述要注意的是,sklearn預設使用的是基尼係數同是介紹一個數據集網站 http://biostat.mc.v

機器學習 —— 決策樹及其整合演算法(Bagging、隨機森林、Boosting)

決策樹 --------------------------------------------------------------------- 1.描述：以樹為基礎的方法可以用於迴歸和分類。樹的節點將要預測的空間劃分為一系列簡單域劃分預測空間的規則可以被建模為

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

機器學習與人工智障(5):決策樹與隨機森林

一、從LR到決策樹　　1.總體流程與核心問題　　　　(1)決策樹是基於樹的結構進行決策：　　　　　　每個“內部節點”對應於某個屬性上的“測試” 　　　　　　每個分支對應於該測試的一種可能結果(即該屬性上的每個取值) 　　　　　　每個葉節點對應於一個預測結果　　　　(2)學習過程：通過對訓練

機器學習——動手從決策樹實現隨機森林

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第26篇文章，我們一起聊聊另外一個整合學習模型，它就是大名鼎鼎的隨機森林。隨機森林在業內名氣和使用範圍都很廣，曾經在許多演算法比賽當中拔得頭籌。另外，它也是一個通過組合多個弱分類器構建強分類器的經典模型，因此它在

機器學習(五)：通俗易懂決策樹與隨機森林及程式碼實踐

與SVM一樣，決策樹是通用的機器學習演算法。隨機森林，顧名思義，將決策樹分類器整合到一起就形成了更強大的機器學習演算法。它們都是很基礎但很強大的機器學習工具，雖然我們現在有更先進的演算法工具來訓練模型，但決策樹與隨機森林因其簡單靈活依然廣受喜愛，建議大家學習。 # 一、決策樹 ## 1.1 什麼是決策樹

機器學習——決策樹和隨機森林演算法

認識決策樹

資訊熵

決策樹的劃分依據：資訊增益

sklearn決策樹API

決策樹的優缺點

隨機森林

整合學習方法

隨機森林的優點

相關推薦