Scikit-Learn與迴歸樹

阿新 • • 發佈：2019-02-07

迴歸演算法原理

CART(Classification and Regression Tree)演算法是目前決策樹演算法中最為成熟的一類演算法，應用範圍也比較廣泛。它既可以用於分類。
西方預測理論一般都是基於迴歸的，CART是一種通過決策樹方法實現迴歸的演算法，它具有很多其他全域性迴歸演算法不具有的特性。
在建立迴歸模型時，樣本的取值分為觀察值和輸出值兩種，觀察值和輸出值都是連續的，不像分類函式那樣有分類標籤，只有根據資料集的資料特徵來建立一個預測的模型，反映曲線的變化趨勢。在這種情況下，原有分類樹的最優劃分規則就不再起作用了。在預測中，CART使用最小剩餘方差（Squared Residuals Minimization）來判定迴歸樹的最優劃分，這個準則期望劃分之後的子樹與樣本點的誤差方差最小

。這樣決策樹將資料集劃分成很多子模型資料，然後利用線性迴歸技術來建模。如果每次切分後的資料子集仍然難以擬合，就繼續切分。在這種切分方式下創建出的預測樹，每個葉子節點都是一個線性迴歸模型。這些線性迴歸模型反映了樣本集合（觀測集合）中蘊含的模式，也被稱為模型樹。因此，CART不僅支援正體預測，也支援區域性模式的預測，並有能力從整體中找到模式，或根據模式組合成一個整體。整體與模式之間的相互結合，對於預測分析有重要價值。因此CART決策樹演算法在預測中的應用非常廣泛。
下面介紹CART的演算法流程：
(1)決策樹主函式：決策樹的主函式是一個遞迴函式。該函式的主要功能是按照CART的規則生長出決策樹的每個分支節點，並根據終止條件結束演算法。
a.輸入需要分類的資料集和類別標籤。
b.使用最小剩餘方差判定迴歸樹的最優劃分，並建立特徵的劃分節點——最小剩餘方差子函式。
c.在劃分節點劃分資料集為兩部分——二分資料集子函式。
d.根據二分資料的結果構建出新的左右節點，作為樹生長出的兩個分支。
e.檢驗是否符合遞迴的終止條件。
f.將劃分的新節點包含的資料集和類別標籤作為輸入，遞迴執行上述步驟。
(2)使用最小剩餘方差子函式，計算資料集各列的最優劃分方差、劃分列、劃分值
(3)二分資料集：根據給定的分隔列和分隔值將資料集一分為二，分別返回。

最小剩餘方差法

在迴歸樹中，資料集均為連續性。連續資料的處理方法與離散資料不同，離散資料是按每個特徵的取值劃分，而連續特徵則要計算出最優劃分點。但在連續資料集上計算線性相關度非常簡單，演算法思想來源於最小二乘法。
最小剩餘方差法，首先求取劃分資料列的均值和總方差。總方差的計算方法有兩種
求取均值std，計算每個資料點與std的方差，然後將n個點求和。
求取方差var，然後var_sum = var*n，n為資料集資料數目。
那麼，每次最佳分支特徵的選取過程如下。
(1)先令最佳方差為無限大 bestVar = inf。
(2)此次遍歷所有特徵列及每個特徵列的所有樣本點（這是一個二迴圈），在每個樣本點上二分資料集。
(3)計算二分資料集後的總方差currentVar，如果currentVar < bestVar，則bestVar = currentVar。
返回計算的最優分支特徵列、分支特徵值（連續特徵則為劃分點的值）以及左右分支子資料集到主程式。

模型樹

使用CART進行預測是把葉子節點設定為一系列的分段線性函式，這些分段線性函式是對源資料曲線的一種模擬，每個線性函式都被稱為一顆模型樹。模型樹具有很多優秀的性質，它包含了如下特徵。
一般而言，樣本總體的重複性不會很高，但區域性模式經常重複，也就是所說的歷史不會簡單的重複，但會重演。模型比總體對未來的預測而言更有用。
模型給出了資料的範圍，它可能是一個時間範圍，也可能是一個空間範圍；而且模型還給出了變化的趨勢，可以是曲線，也可以是直線，這依賴於使用的迴歸演算法。這些因素使模型具有很強的可解釋性。
傳統的迴歸方法，無論是線性迴歸還是非線性迴歸，都不如模型樹包含的資訊豐富，因此模型樹具有更高的預測準確度。

Scikit-Learn實現

#!/usr/bin/python
# created by lixin 20161118
import numpy as np
from numpy import *
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt


def plotfigure(X,X_test,y,yp):
        plt.figure()
        plt.scatter(X,y,c="k",label="data")
        plt.plot(X_test,yp,c="r",label="max_depth=5",linewidth=2)
        plt.xlabel("data")
        plt.ylabel("target")
        plt.title("Decision Tree Regression")
        plt.legend(loc='upper right')
        plt.show()
        #plt.savefig('./res.png', format='png')


x = np.linspace(-5,5,200)
siny = np.sin(x)
X = mat(x).T
y = siny + np.random.rand(1,len(siny))*1.5
y = y.tolist()[0]
clf = DecisionTreeRegressor(max_depth=4)
clf.fit(X,y)

X_test = np.arange(-5.0,5.0,0.05)[:,np.newaxi
yp = clf.predict(X_test)

plotfigure(X,X_test,y,yp)

Scikit-Learn與迴歸樹

迴歸演算法原理 CART(Classification and Regression Tree)演算法是目前決策樹演算法中最為成熟的一類演算法，應用範圍也比較廣泛。它既可以用於分類。西方預測理論一般都是基於迴歸的，CART是一種通過決策樹方法實現

scikit-learn 線性迴歸模型的score函式，返回值是決定係數R^2

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression http://scikit-le

scikit-learn 邏輯迴歸實現乳腺癌檢測

隨書程式碼，閱讀筆記載入資料 %matplotlib inline import matplotlib.pyplot as plt import numpy as np # 載入資料 from sklearn.datasets import load_breast_ca

scikit-learn 線性迴歸擬合正弦函式，預測房價

隨書程式碼，閱讀筆記。線性迴歸擬合正弦函式 %matplotlib inline import matplotlib.pyplot as plt import numpy as np n_dots = 200 X = np.linspace(-2 * np.pi

Scikit-Learn與TensorFlow機器學習（高清版）PDF

Scikit-Learn與TensorFlow機器學習（高清版）PDF百度網盤連結：https://pan.baidu.com/s/1MVQvrYc9Dx-bFXrDVWU3OQ 提取碼：03cj 複製這段內容後開啟百度網盤手機App，操作更方便哦內容簡介 · · · · · · 通過具體的例子、很少的理論以

scikit-learn : 線性迴歸，多元迴歸，多項式迴歸

匹薩的直徑與價格的資料 %matplotlib inline import matplotlib.pyplot as plt def runplt(): plt.figure() plt.title(u'diameter-cost

分類與迴歸樹(CART,Classification And Regression Tree)

分類迴歸樹也屬於一種決策樹。分類迴歸樹是一棵二叉樹，且每個非葉子節點都有兩個孩子。構建決策樹時通常採用自上而下的方法，在每一步選擇一個最好的屬性來分裂。 "最好" 的定義是使得子節點中的訓練集儘

scikit-learn : 線性迴歸

# 線性迴歸背景從線性迴歸(Linear regression)開始學習迴歸分析，線性迴歸是最早的也是最基本的模型——把資料擬合成一條直線。 — # 資料集使用scikit-learn裡的資料集boston,boston資料集很適合用來演示線性

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律

紅色石頭的個人網站：redstonewill.com 目前為止，我們已經對資料有了初步的認識，大體上明白了我們要處理的資料型別。現在，我們將進入更深入的研究。首先，確保已經劃分了測試集並放置一邊，我們只會對訓練集進行操作。另外，如果訓練集很大，可以從中取樣一些作

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 3 —— 資料獲取與清洗

紅色石頭的個人網站：redstonewill.com 本章將完整地介紹一個端對端（End-to-End）機器學習專案。假如你是某個房地產公司剛僱傭的資料科學家，你所要做的事情主要分成以下幾個步驟： 1.整體規劃。 2.獲取資料。 3.發現、視覺化資料，增加

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記2 — 機器學習的主要挑戰

紅色石頭的個人網站：redstonewill.com 簡而言之，因為機器學習的主要任務就是選擇合適的機器學習演算法在資料集上進行訓練，所以不好的演算法和不好的資料都可能嚴重影響訓練效果。下面我們先來看看不好的資料會帶來什麼影響。 1.4.1 訓練資料不足

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記1 — 機器學習基礎知識簡介

紅色石頭的個人網站：redstonewill.com 本章介紹的是每一個數據科學家都應該知道並聽說的機器學習許多基本的概念和術語。這將是一個高層次的概括（本書唯一沒有很多程式碼的一章）。內容很簡單，但是你要保證在進行下一章之前對本章每個概念都理解得很透徹。因此，端

CART分類與迴歸樹的原理與實現

// cart.cpp : 定義控制檯應用程式的入口點。 // #include "stdafx.h" #include<vector> #include<set> #include<algorithm> #include<iostream> #include

資料探勘十大經典演算法--CART: 分類與迴歸樹

一、決策樹的型別在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同

scikit-learn 邏輯迴歸例子詳解

import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model, datasets # import some data to play with iris = datasets.load_iris()

資料探勘十大經典演算法(十) CART: 分類與迴歸樹

在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。分類迴歸樹是一棵二叉樹，且每個非葉子節點都有兩個孩子，所以對於第一棵子樹其葉子節點數比非葉子節點數多1。決策樹為什麼(WHY)要

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

在本文中，我們將以Scikit學習的決策樹和隨機森林預測NBA獲勝者。美國國家籃球協會（NBA）是北美主要的男子職業籃球聯賽，被廣泛認為是首屈一指的男子職業籃球聯賽在世界上。它有30個團隊（美國29個，

機器學習：Scikit-learn與特徵工程

“資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的、沒有經過處理的或者說是存在很多無用的資料，那麼需要進行一些特徵處理，特徵的縮放等等，滿足訓練資料的要求。我們將初次接觸到Sciki

scikit-learn與資料預處理

1 引言¶ 預處理操作是機器學習整個週期中必不可少的一個過程，也是最能快速改善模型效能的一個過程，往往稍微轉換一下特徵屬性的形態，就能得到效能的極大提升。當然，資料預處理絕對也是耗時最長的一個過程，這一過程不僅要求洞悉整個資料集結構

scikit-learn 術語與規範

通用術語和API元素詞彙表本詞彙表希望明確地代表Scikit-learn及其API中應用的預設和明確的約定，同時為使用者和貢獻者提供參考。它旨在描述概念，並詳細說明其相應的API或連結到文件的其他相關部分。通過連結API參考和使用者指南中的詞彙表條目，我們可以最大限度地減少冗餘和不一致。我們首先列出一般

Scikit-Learn與迴歸樹

迴歸演算法原理

最小剩餘方差法

模型樹

Scikit-Learn實現

相關推薦