談談模型融合之二 —— 隨機森林

阿新 • • 發佈：2019-12-28

前言

上篇文章介紹了整合學習的相關概念以及基於 Boosting的 AdaBoost，這篇文章將介紹基於模型融合的另一種方式 Bagging 的演算法，隨機森林（Random Forest）。(上篇公式敲的太累了這篇就來個簡單的緩解緩解)

隨機森林

演算法思想

我們先來看看這個演算法的名字，可以拆分開為兩部分，隨機和森林。森林我們很容易可以想到，就是有很多棵樹，即由多顆決策樹組成。那麼隨機指的是什麼呢？這裡我們來看看 Bagging 的思想了。

首先先說說自助取樣(Bootstrap Sanpling)

指任何一種有放回的均勻抽樣，也就是說，每當選中一個樣本，它等可能地被再次選中並被再次新增到訓練集中。

而 Bagging 則是利用自助取樣得到 T 組訓練樣本集，分別利用這些訓練樣本集訓練 T 個分類器，最後進行整合的方法。從 Bias-Variance 分解的角度看， Bagging 主要關注降低方差。

那麼，我們大概就能知道這個隨機大概是什麼意思了，就是隨機抽取訓練集。

那麼，問題又來了，到底是隨機抽取一定量的樣本呢還是抽取部分特徵呢？答案是都有，隨機在這兩方面都有所體現。

所以可以列出這麼一個等式—— Random Forest = Bagging + Fully-Grown CART with Random Subspace。

其特點為：

可高度並行化
繼承了 CART 的優點
克服了完全生長樹的缺點

融合策略

知道了隨機森林的演算法思想後，知道了最後是需要將所有決策樹的預測結果進行整合，那我們採用什麼方法進行整合呢？

大概有以下幾種方法：

平均法
加權平均法
投票法
- 絕大多數投票(Majority Voting)：超過半數則決策，否則拒絕
- 少數服從多數(Plurality Voting)：預測為得票最多的標記法
學習法
- 用各學習器的輸出生成新的訓練資料，再去訓練一個學習器

程式碼實現

emmmmmmmmmmm。。。。突然發現居然沒有什麼數學推導？？？？驚了

下面的程式碼是基於投票法策略寫的

def bagging(X, y, T, size, seed=0, max_depth=None):
    """
    Bagging演算法，分類器為CART，用於二分類
    引數：
        X: 訓練集
        y: 樣本標籤
        T: T組
        size: 每組訓練集的大小
        seed: 隨機種子
        max_depth: 基學習器CART決策樹的最大深度
    返回：
        F: 生成的模型
    """
    classifiers = []
    m, n = X.shape
    
    np.random.seed(seed)
    for i in range(T):
        # 使用np.random.choice選擇size個序號，注意replace引數的設定，以滿足有放回的均勻抽樣。
        index = np.random.choice(m,size)
        X_group = X[index]
        y_group = y[index]
        # 使用tree.DecisionTreeClassifier，設定max_depth=None, min_samples_split=2(生成完全樹),random_state=0
        t = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=2, random_state=0)
        # 開始訓練
#         print(y_group.shape)
        t.fit(X_group, y_group)
        classifiers.append(t)
    
    def F(X):
        # 計算所有分類器的預測結果
        result = []
        for t in classifiers:
            result.append(t.predict(X))
        # 把預測結果組成 num_X * T 的矩陣
        pred = np.vstack(result).T
        # 計算"0"有多少投票
        vote_0 = T - np.sum(pred, axis=1)
        # 計算"1"有多少投票
        vote_1 = np.sum(pred, axis=1)
        # 選擇投票數最多的一個標籤
        pred = (vote_1 > vote_0).astype(int)
        
        return pred     
    return F

小節

上篇的 AdaBoost 一堆公式推導，這就來了篇簡單的緩解緩解，寫著寫著發現就寫完了而且還沒有公式的時候瞬間驚了，下篇該系列文章就來講講資料探勘競賽中熟知的 GBDT

談談模型融合之二 —— 隨機森林

前言上篇文章介紹了整合學習的相關概念以及基於 Boosting的 AdaBoost，這篇文章將介紹基於模型融合的另一種方式 Bagging 的演算法，隨機森林（Random Forest）。(上篇公式敲的太累了這篇就來個簡單的緩解緩解) 隨機森林演算法思想我們先來看看這個演算法的名字，可以拆分開為兩部分

談談模型融合之三 —— GBDT

前言本來應該是年後就要寫的一篇部落格，因為考完試後忙了一段時間課設和實驗，然後回家後又在摸魚，就一直沒開動。趁著這段時間只能呆在家裡來把這些部落格補上。在之前的文章中介紹了 Random Forest 和 AdaBoost，這篇文章將介紹介紹在資料探勘競賽中，最常用的演算法之一 —— GBDT（Gradie

從產品展示頁面談談Hybris系列之二: DTO, Converter和Populator

ext 存儲 resource tar adl 裏的 resolve 個數 lis 文章作者：張健(Zhang Jonathan) 上一篇文章從產品展示頁面談談Hybris的特有概念和設計結構我們講解了Hybris一些特有的概念以及大體架構，並且介紹了Facade層裏是

ML - 貸款使用者逾期情況分析4 - 模型融合之Stacking

文章目錄模型融合之Stacking (判定貸款使用者是否逾期) 1. 理論介紹 1.1 系統解釋 1.2 詳細解釋 2. 程式碼 2.1 調包實現 2.2 自己實現

整合模型python實現，隨機森林，梯度提升決策樹

import pandas as pd; titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') X = titanic[['pclass'

python機器學習庫scikit-learn簡明教程之：隨機森林

1.scikit-learn中的隨機森林 sklearn.ensemble模組中包含兩種基於隨機決策樹的平均演算法：隨機森林演算法和ExtraTrees的方法。這兩種演算法都是專為決策樹設計的包含混合

模型融合之stacking方法

之前一直對stacking一知半解，找到的資料也介紹的很模糊。所以有多看了幾篇文章，然後來此寫篇部落格，加深一下印象，順便給各位朋友分享一下。stacking的過程有一張圖非常經典，如下：雖然他很直觀，但是沒有語言描述確實很難搞懂。上半部分是用一個基礎模型進行5折交叉驗證，如

模型融合之Bagging,及scikit learning

小編昨天第一次參加了校園招聘會面試，應聘的是機器學習和資料探勘，當然只學了兩個月的知識是遠遠不能應對面試官的一頓吊打。因此，回來好好反思自己的學習方法。還是平時學習沒有得到即使的反饋，以及實踐練習。所以，痛定思痛，決定以部落格的形式來檢驗自己是否有沒有掌握好內容

模型融合之stacking&blending原理及程式碼

目錄 1.1 概念 2.1 概念 4 參考文獻模型融合的基本思想就是通過對多個單模型融合以提升整體效能。平常自己一般都使用最簡單的方法，比如說對分類問題，採用voting，對迴歸問題，採用加權averaging。今天簡單介紹下stacking

【Machine Learning】模型融合之Stacking

一、Stacking簡介 Stacking(stacked generalization)是在大資料競賽中不可缺少的武器，其指訓練一個用於組合(combine)其他多個不同模型的模型，具體是說首先

談談模型融合之一 —— 整合學習與 AdaBoost

前言前面的文章中介紹了決策樹以及其它一些演算法，但是，會發現，有時候使用使用這些演算法並不能達到特別好的效果。於是乎就有了整合學習（Ensemble Learning），通過構建多個學習器一起結合來完成具體的學習任務。這篇文章將介紹整合學習，以及其中的一種演算法 AdaBoost。整合學習首先先來介紹下

決策樹模型組合之隨機森林與GBDT（轉）

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林——CART模型PYTHON實現把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。其中CART模型：二叉決策樹，節點特徵只取值“是”與“否”；輸入特徵的切分方式，啟

基於隨機森林的化合物活性二分類模型

#匯入依賴包 import pandas as pd import numpy as np from rdkit import Chem, DataStructs from rdkit.Chem

spark mllib原始碼分析之隨機森林(Random Forest)（二）

4. 特徵處理這部分主要在DecisionTree.scala的findSplitsBins函式，將所有特徵封裝成Split，然後裝箱Bin。首先對split和bin的結構進行說明 4.1. 資料結構 4.1.1. Split cl

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

ASP.NET MVC Model之二模型綁定

數據包 set count 效果模型 shtml 獲得 tex turn Asp.net mvc中的模型綁定，或許大家經常用，但是具體說他是怎麽一回事，可能還是會有些陌生，那麽，本文就帶你理解模型綁定。為了理解模型綁定，本文會先給出其定義，然後對通過比，來得出使用模型綁定

nova創建虛擬機流程源碼系列分析之二 wsgi模型

app 技術 har forever 服務端服務器程序 inter nova 127.0.0.1 openstack nova啟動時首先通過命令行或者dashborad填寫創建信息，然後通過restful api的方式調用openstack服務去創建虛擬機。數據信息從客戶

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之二（作者簡介）

AR aca rtu href beijing cert school start ica Brief Introduction of the AuthorChief Architect at 2Wave Technology Inc. (a startup company

談談模型融合之二 —— 隨機森林

前言

隨機森林

演算法思想

融合策略

程式碼實現

小節

相關推薦