機器學習小實戰（二）建立決策樹

阿新 • • 發佈：2019-02-09

一、決策樹簡介

決策樹既可以分類，也可以迴歸。構造決策樹兩種方式：預剪枝/後剪枝

難點：如何構造決策樹，選什麼特徵作為結點。

特點：根節點是分類效果最好的，其餘次之、再次之。

決策樹停止劃分結點的原因可能是：達到最大葉子節點數了、葉子結點樣本數夠少了、未達到劃分結點的衡量標準（e.g 資訊熵變化不明顯）等等

二、構造決策樹的小栗子

就用sklearn中自帶的一個數據集進行演示

1. 讀取資料、瞭解分佈情況

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets.california_housing import fetch_california_housing #採用內建資料集

housing=fetch_california_housing()
print(housing.DESCR) #關於這個資料集的簡介
print(housing.data.shape) #(20640, 8)
print(type(housing))  #<class 'sklearn.utils.Bunch'>
print(housing.data[0]) #輸出一行資料瞅瞅啥樣

輸出：關於這個資料集的介紹，從簡介中可以看出，這個資料集包含8個屬性：average income,housing average age, average rooms, average bedrooms, population,average occupation, latitude, and longitude

2. 資料預處理

因為是自帶的資料庫，資料沒啥大問題，這步忽略，進入下一步

3. 建立決策樹模型

為了簡化模型，我們只考慮最後兩項特徵（經緯度）對房屋價格的影響

# 構造決策樹
from sklearn import tree
dtr=tree.DecisionTreeRegressor(max_depth=2) #第一步：例項化樹模型——傳遞引數
dtr.fit(housing.data[:,[6,7]],housing.target) #第二步：構造樹模型——傳入X值與y值

輸出：這個樹的資訊，構造過程用的引數情況，可以看到有非常多的引數，但要去設定的也不多，最重要的是max_depth和max_leaf_nodes。

DecisionTreeRegressor(criterion='mse', max_depth=2, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best')

各引數的含義：

4. 決策樹的視覺化顯示

# 先生成.dot檔案
dot_data= \
    tree.export_graphviz(
        dtr, # 決策樹的名字
        out_file=None,
        feature_names=housing.feature_names[6:8],#特徵名字
        filled=True,
        impurity=False,
        rounded=True
    )

# 對.dot檔案進行顯示
import pydotplus  #pip install  pydotplus
graph=pydotplus.graph_from_dot_data(dot_data)
graph.get_nodes()[7].set_fillcolor('#FFF2DD')
from IPython.display import Image #notebook中不需要安裝，但是pycharm中需要安裝
Image(graph.create_png())

# 儲存到本地
graph.write_png('dtr_white_background.png')

結果：

5. 決策樹的評估 .score

重新建立了一個決策樹，把所有的性質都用上了

from sklearn.model_selection import train_test_split
data_train,data_test,target_train, target_test=\
    train_test_split(housing.data, housing.target, test_size=0.1,random_state=42)
dtr=tree.DecisionTreeRegressor(random_state=42) 
dtr.fit(data_train, target_train)
dtr.score(data_test, target_test)

輸出：0.637318351331017

三、隨機森林進行決策

1. 通過隨機森林進行決策

from sklearn.ensemble import RandomForestRegressor
rfr=RandomForestRegressor(random_state=42)
rfr.fit(data_train,target_train)
rfr.score(data_test,target_test)

輸出：0.7908649228096493

四、通過交叉驗證將各特徵進行排序

1. 交叉驗證

## 交叉驗證選出最好的引數
from sklearn.grid_search import GridSearchCV
tree_param_grid = { 'min_samples_split': list((3,6,9)),'n_estimators':list((10,50,100))}
grid = GridSearchCV(RandomForestRegressor(),param_grid=tree_param_grid, cv=5)
grid.fit(data_train, target_train)
grid.grid_scores_, grid.best_params_, grid.best_score_

結果：

([mean: 0.78590, std: 0.00274, params: {'min_samples_split': 3, 'n_estimators': 10},
  mean: 0.80537, std: 0.00404, params: {'min_samples_split': 3, 'n_estimators': 50},
  mean: 0.80774, std: 0.00387, params: {'min_samples_split': 3, 'n_estimators': 100},
  mean: 0.78896, std: 0.00314, params: {'min_samples_split': 6, 'n_estimators': 10},
  mean: 0.80562, std: 0.00407, params: {'min_samples_split': 6, 'n_estimators': 50},
  mean: 0.80690, std: 0.00366, params: {'min_samples_split': 6, 'n_estimators': 100},
  mean: 0.78679, std: 0.00504, params: {'min_samples_split': 9, 'n_estimators': 10},
  mean: 0.80455, std: 0.00470, params: {'min_samples_split': 9, 'n_estimators': 50},
  mean: 0.80557, std: 0.00411, params: {'min_samples_split': 9, 'n_estimators': 100}],
 {'min_samples_split': 3, 'n_estimators': 100},
 0.8077425553717694)

2. 用最好的一組引數構建決策樹

# 用篩選出來最好的引數來構造決策樹
rfr=RandomForestRegressor(min_samples_split=3,n_estimators=100,random_state=42)
rfr.fit(data_train,target_train)
rfr.score(data_test,target_test) #0.8090829049653158

3. 將特徵進行排序

pd.Series(rfr.feature_importances_,index=housing.feature_names).sort_values(ascending=False) #將屬性的重要性進行排序

MedInc        0.524257
AveOccup      0.137947
Latitude      0.090622
Longitude     0.089414
HouseAge      0.053970
AveRooms      0.044443
Population    0.030263
AveBedrms     0.029084

機器學習小實戰（二）建立決策樹

目錄一、決策樹簡介決策樹既可以分類，也可以迴歸。構造決策樹兩種方式：預剪枝/後剪枝難點：如何構造決策樹，選什麼特徵作為結點。特點：根節點是分類效果最好的，其餘次之、再次之。決策樹停止劃分結點的原因可能是：達到最大葉子節點數了、葉子結點樣本數

機器學習小實戰（四） KMeans聚類

目錄二、小案例一、 KMeans聚類簡介需要事先指定簇的數目k 優化目標：所有點到各自質心的距離之和最小特點：受初始值（K個隨機質心的位置）的影響挺大的、受形狀的影響還有點大二、小案例讀資料、演算法例項化（設定引數），訓練模型、展示與分析

機器學習小實戰（三）貝葉斯實現拼寫檢查器

一、貝葉斯（Bayes）簡介貝葉斯老爺爺是一位有名的老人家！貝葉斯演算法和概率有關，貝葉斯公式其實高中學過的，就是忘了而已。二、貝葉斯實現拼寫檢查器 1. 原理 argmaxc P(A|B)=argmaxc P(B|A) P(A) /P(B) P(

機器學習小實戰（六） XGBoost基本原理

一、xgboost原理 1. 實踐證明，tree boosting（樹提升）可以有效地用於分類和迴歸任務中，提升方法是一種非常有效的機器學習方法，xgboost是提升的強化版本。 2. 和決策樹相關，集成了多個弱學習器。 3. 提升演算法，相當於一棵樹一棵樹地加，每加一

我的機器學習之旅（六）：決策樹

family 分配根據 drop chrom labels arch ntp -o 決策樹概念：分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型：內部節點和葉節點，內部節點表示一個特征或屬性，葉節點表示一個類。分類的時候，從根

機器學習回顧篇（7）：決策樹演算法（ID3、C4.5）

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案。 1 演算法概述¶

Flask框架的學習與實戰（二）：實戰小專案

昨天寫了一篇flask開發環境搭建，今天繼續，進行一個實戰小專案-blog系統。 blog系統很簡單，只有一個頁面，然後麻雀雖小五臟俱全。這裡目的不是為了做專案而做專案，這篇文章本意是通過這次練習傳達以下幾個知識點： 1、從全域性上了解flask專案的目錄結構 2、flas

機器學習簡要筆記（二）——常見學習任務及算法

bubuko 屬性。 src 沒有數據數量類別降維筆記 1、分類從標識數據中學習分類特征，利用學習的分類特征，識別某個對象屬於哪個類別。 2、回歸預測與對象相關聯的連續性屬性。 3、聚類從沒有標記的數據中發現類似特征的分組，即將對象自動分組。

吳恩達老師機器學習筆記SVM（二）

今天的部分是利用高斯核函式對分佈稍微複雜一點的資料進行分類這裡的高斯核函式是構建新的特徵，該特徵是關於到其餘所有樣點的歐式距離。下面放出程式碼： load('ex6data2.mat'); [m n]=size(X); f=zeros(m,m); a=0.005 for i=

機器學習之旅（二）

吳恩達教授的機器學習課程的第二週相關內容： 1、多變數線性迴歸(Linear Regression with Multiple Variables) 1.1、多維特徵 x

轉錄組差異表達分析小實戰（二）

轉錄組差異表達分析小實戰（二） Posted: 八月 14, 2017 Under: Transcriptomics By Kai no Comments 差異基因表達分析我按照前面的流程轉錄組差

學習面向物件（二）—建立物件—汪騰騰

學習面向物件（二）建立物件（1） object 建構函式或者字面量可以用來建立單個物件（2）工廠模式：優：解決了大量相似物件的問題 &

機器學習基礎知識（二）

深度神經網路：深度學習實際指的是基於深度神經網路（ deep neural networks, DNN）的學習，也就是深度人工神經網路所進行的學習過程，或稱作 Deep Learning。這個 Deep 指的是神經網路的深度（層數多）。 T

系統學習機器學習之總結（二）--機器學習演算法比較

轉自：https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自：csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點！機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算

機器學習速成筆記（二）：訓練與損失

訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出

機器學習-神經網路（二）

上一篇：機器學習-神經網路（一）神經網路的代價函式符號意義 L

機器學習——整合演算法（二）

接著整合演算法講講GBDT和Xgboost，二者的原理其實差不多的，他們都屬於提升演算法。梯度上升（Gradient Boosting）是說，在整合演算法中每個弱決策樹的生成都是依據損失函式的梯度方向。提升演算法，是找到找到最優解F(x)使得損失函式在訓練集上期望（偏差）

林軒田機器學習基石入門（二）

上一節中我們主要講到機器學習的應用場景，而這一節主要向大家介紹我們身邊機器學習的例子，讓大家對機器學習有更多的直觀瞭解。機器學習如今已滲透在我們的日行中，這很讓人驚訝，你每天都能夠接觸到它。對於人們來說“衣食住行”是每天的基礎要求。當你肚子餓想

springboot學習小筆記（二）---springboot工作機制

Spring Boot工作機制簡介一、@SpringBootApplication 我們新建一個springboot專案裡面會有一個SpringbootDay1203Application類我們都知道@SpringBootApplication是Springboot專案的核心註

機器學習基本知識（二）：邏輯迴歸

一、分類和迴歸迴歸(Regression)和分類(Classification)是機器學習中的兩大類問題，迴歸問題的輸出是連續的，而分類的輸出則是代表不同類別的有限個離散數值。

機器學習小實戰（二） 建立決策樹

一、決策樹簡介

二、構造決策樹的小栗子

三、隨機森林進行決策

四、通過交叉驗證將各特徵進行排序

相關推薦

機器學習小實戰（二）建立決策樹