機器學習實戰sklearn 構建決策樹

阿新 • • 發佈：2018-11-30

使用sklearn 房價資料集構建決策樹

1、匯入資料集

%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd


# 匯入資料
from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing()
print(housing.DESCR)

print(housing.data.shape)
print(housing.data[0])

2、構建決策樹

# max_depth:樹的最大深度，
# 構建樹模型，例項化樹
from sklearn import tree
dtr = tree.DecisionTreeRegressor(max_depth = 2)
# 選擇特徵
dtr.fit(housing.data[:, [6, 7]], housing.target)


#要視覺化顯示 首先需要安裝 graphviz   http://www.graphviz.org/Download..php
dot_data = \
    tree.export_graphviz(
        dtr,
        out_file = None,
        feature_names = housing.feature_names[6:8],
        filled = True,
        impurity = False,
        rounded = True
    )

3、視覺化

import pydotplus
graph = pydotplus.graph_from_dot_data(dot_data)
graph.get_nodes()[7].set_fillcolor("#FFF2DD")
from IPython.display import Image
Image(graph.create_png())

# 儲存決策樹為圖片
graph.write_png("dtr_white_background.png")

結果：

決策樹各引數：

-  1.criterion  gini  or  entropy

-  2.splitter  best or random 前者是在所有特徵中找最好的切分點 後者是在部分特徵中（資料量大的時候）

-  3.max_features  None（所有），log2，sqrt，N  特徵小於50的時候一般使用所有的

-  4.max_depth  資料少或者特徵少的時候可以不管這個值，如果模型樣本量多，特徵也多的情況下，可以嘗試限制下

-  5.min_samples_split  如果某節點的樣本數少於min_samples_split，則不會繼續再嘗試選擇最優特徵來進行劃分如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。

-  6.min_samples_leaf  這個值限制了葉子節點最少的樣本數，如果某葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝，如果樣本量不大，不需要管這個值，大些如10W可是嘗試下5

-  7.min_weight_fraction_leaf 這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝預設是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分佈類別偏差很大，就會引入樣本權重，這時我們就要注意這個值了。

-  8.max_leaf_nodes 通過限制最大葉子節點數，可以防止過擬合，預設是"None”，即不限制最大的葉子節點數。如果加了限制，演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制具體的值可以通過交叉驗證得到。

-  9.class_weight 指定樣本各類別的的權重，主要是為了防止訓練集某些類別的樣本過多導致訓練的決策樹過於偏向這些類別。這裡可以自己指定各個樣本的權重如果使用“balanced”，則演算法會自己計算權重，樣本量少的類別所對應的樣本權重會高。

- 10.min_impurity_split 這個值限制了決策樹的增長，如果某節點的不純度(基尼係數，資訊增益，均方差，絕對差)小於這個閾值則該節點不再生成子節點。即為葉子節點 。
- n_estimators:要建立樹的個數

全部原始碼：


# coding: utf-8

# In[1]:


get_ipython().run_line_magic('matplotlib', 'inline')

import matplotlib.pyplot as plt

import pandas as pd


# In[2]:


# 匯入資料
from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing()
print(housing.DESCR)


# In[3]:


housing.data.shape


# In[4]:


housing.data[0]


# In[5]:


# max_depth:樹的最大深度，
# 構建樹模型，例項化樹
from sklearn import tree
dtr = tree.DecisionTreeRegressor(max_depth = 2)
# 選擇特徵
dtr.fit(housing.data[:, [6, 7]], housing.target)


# In[6]:


#要視覺化顯示 首先需要安裝 graphviz   http://www.graphviz.org/Download..php
dot_data =     tree.export_graphviz(
        dtr,
        out_file = None,
        feature_names = housing.feature_names[6:8],
        filled = True,
        impurity = False,
        rounded = True
    )


# In[7]:


#pip install pydotplus
import pydotplus
graph = pydotplus.graph_from_dot_data(dot_data)
graph.get_nodes()[7].set_fillcolor("#FFF2DD")
from IPython.display import Image
Image(graph.create_png())


# In[8]:


graph.write_png("dtr_white_background.png")


# In[9]:


from sklearn.model_selection import train_test_split
# 資料切分，test_size：測試集，random_state：隨機種子
# housing.data：資料， housing.target：標籤
data_train, data_test, target_train, target_test =     train_test_split(housing.data, housing.target, test_size = 0.1, random_state = 42)
dtr = tree.DecisionTreeRegressor(random_state = 42)
dtr.fit(data_train, target_train)

dtr.score(data_test,  )


# In[10]:


from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor( random_state = 42)
rfr.fit(data_train, target_train)
rfr.score(data_test, target_test)


# ## 樹模型引數:
# 
# -  1.criterion  gini  or  entropy
# 
# -  2.splitter  best or random 前者是在所有特徵中找最好的切分點 後者是在部分特徵中（資料量大的時候）
# 
# -  3.max_features  None（所有），log2，sqrt，N  特徵小於50的時候一般使用所有的
# 
# -  4.max_depth  資料少或者特徵少的時候可以不管這個值，如果模型樣本量多，特徵也多的情況下，可以嘗試限制下
# 
# -  5.min_samples_split  如果某節點的樣本數少於min_samples_split，則不會繼續再嘗試選擇最優特徵來進行劃分如果樣本量不大，不需要管這個值。如果樣本量數量級非常大，則推薦增大這個值。
# 
# -  6.min_samples_leaf  這個值限制了葉子節點最少的樣本數，如果某葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝，如果樣本量不大，不需要管這個值，大些如10W可是嘗試下5
# 
# -  7.min_weight_fraction_leaf 這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝預設是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分佈類別偏差很大，就會引入樣本權重，這時我們就要注意這個值了。
# 
# -  8.max_leaf_nodes 通過限制最大葉子節點數，可以防止過擬合，預設是"None”，即不限制最大的葉子節點數。如果加了限制，演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制具體的值可以通過交叉驗證得到。
# 
# -  9.class_weight 指定樣本各類別的的權重，主要是為了防止訓練集某些類別的樣本過多導致訓練的決策樹過於偏向這些類別。這裡可以自己指定各個樣本的權重如果使用“balanced”，則演算法會自己計算權重，樣本量少的類別所對應的樣本權重會高。
# 
# - 10.min_impurity_split 這個值限制了決策樹的增長，如果某節點的不純度(基尼係數，資訊增益，均方差，絕對差)小於這個閾值則該節點不再生成子節點。即為葉子節點 。
# - n_estimators:要建立樹的個數

# In[11]:


from sklearn.grid_search import GridSearchCV
# min_samples_split：樣本個數，n_estimators：
# cv：進行幾次交叉驗證
tree_param_grid = { 'min_samples_split': list((3,6,9)),'n_estimators':list((10,50,100))}
grid = GridSearchCV(RandomForestRegressor(),param_grid=tree_param_grid, cv=5)
grid.fit(data_train, target_train)
grid.grid_scores_, grid.best_params_, grid.best_score_


# In[12]:


rfr = RandomForestRegressor( min_samples_split=3,n_estimators = 100,random_state = 42)
rfr.fit(data_train, target_train)
rfr.score(data_test, target_test)


# In[13]:


pd.Series(rfr.feature_importances_, index = housing.feature_names).sort_values(ascending = False)

機器學習實戰sklearn 構建決策樹

使用sklearn 房價資料集構建決策樹 1、匯入資料集 %matplotlib inline import matplotlib.pyplot as plt import pandas as pd # 匯入資料 from sklearn.datasets.california_hous

機器學習實戰筆記2—決策樹

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

《機器學習實戰》：決策樹之為自己配個隱形眼鏡

《機器學習實戰》：決策樹之為自己配個隱形眼鏡檔案列表如下圖所示：一、構建決策樹建立trees.py檔案，輸入以下程式碼。 ''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learnin

機器學習實戰——1.2決策樹（2）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習實戰——1.2決策樹（1）

Python資料分析與機器學習-使用sklearn構造決策樹模型

# datasets包括內建的資料集 california_housing房價的資料集 from sklearn.datasets.california_housing import fetch_california_housing import pandas as pd

【python和機器學習入門2】決策樹2——決策樹構建

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章

機器學習教程之13-決策樹（decision tree）的sklearn實現

0.概述決策樹（decision tree）是一種基本的分類與迴歸方法。主要優點：模型具有可讀性，分類速度快。決策樹學習通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪。 1.決策樹模型與學習節點：根節點、子節點；內部節點（inter

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

使用 sklearn 構建決策樹並使用 Graphviz 繪製樹結構

1. 概述之前兩篇日誌，我們系統性的介紹了決策樹的構建演算法、構建流程、展示與決策：決策樹的構建演算法 – ID3 與 C4.5 演算法決策樹的構建、展示與決策本文，我們來介紹如何使用 sklearn

機器學習面試知識點之決策樹相關

決策樹面試知識點最全總結（一）一：首先明確以下幾個基本問題： 1.決策樹是幹什麼用的？一種最基本的分類與迴歸方法，因為實際應用中基本上全是用來分類，所以重點討論分類決策樹。 2.決策樹優缺點：優點： 1）

機器學習（二）-----決策樹

決策樹概要決策樹的構造 ID3演算法介紹資訊熵與資訊增益決策樹的優缺點決策樹的構造依決策樹是託決策而建立起來的一種樹。決策樹是一個預測模型，代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個

機器學習之二：決策樹

本文為作者學習K近鄰演算法後的整理筆記，僅供學習使用！決策樹 1、概述決策樹（Decision Tree）實在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章3.4

sklearn構建決策樹

1.視覺化樹 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import tree import graphviz #視覺化 import

簡單易學的機器學習演算法——梯度提升決策樹GBDT

梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）演算法是近年來被提及比較多的一個演算法，這主要得益於其演算法的效能，以及該演算法在各類資料探勘以及機器學習比賽中的卓越表現，有很多人對GBDT演算法進行了開原始碼的開發，比較火的是陳

機器學習演算法之：決策樹 (decision trees)

> By joey周琦概述線性模型一般variance小，bias大；而樹模型一般variance大，bias小決策樹的優點：具有可讀性，分類速度快一般包含三個步驟：特徵選擇決策樹生成剪枝

我與機器學習 - [Today is DT] - [決策樹]

優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵資料缺點：可能會產生過度匹配的問題適用資料型別：數值型和標稱型在構造決策樹時，我們需要解決的第一個問題就是當前是那個特徵在決定決策樹的劃分。為了找到起決定性的特徵，劃分出最好的結果，我們必須評估每個特徵

機器學習方法(四)：決策樹Decision Tree原理與實現技巧

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術、應用感興趣的同學加入。前面三篇寫了線性迴歸，lasso，和LARS的一些內容，這篇寫一下決策樹這個經典的分

機器學習實戰sklearn 構建決策樹

相關推薦