100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）

本文是對100天搞定機器學習|Day33-34 隨機森林的補充

前文對隨機森林的概念、工作原理、使用方法做了簡單介紹，並提供了分類和迴歸的例項。
本期我們重點講一下：
1、整合學習、Bagging和隨機森林概念及相互關係
2、隨機森林引數解釋及設定建議
3、隨機森林模型調參實戰
4、隨機森林模型優缺點總結

整合學習、Bagging和隨機森林

整合學習

整合學習並不是一個單獨的機器學習演算法，它通過將多個基學習器（弱學習器）進行結合，最終獲得一個強學習器。這裡的弱學習器應該具有一定的準確性，並且要有多樣性（學習器之間具有差異），比較常用的基學習器有決策樹和神經網路。

整合學習的核心就是如何產生並結合好而不同的基學習器，這裡有兩種方式是，一種是Bagging，基學習器之間沒有強依賴關係，可同時生成的並行化方法。一種是Boosting，基學習器之間有強依賴關係，必須序列生成。
整合學習另一個關鍵問題是結合策略，主要有平均法、投票法和學習法，這裡不再展開。

Bagging

Bagging是Bootstrap AGGregaING的縮寫，Bootstrap即隨機取樣，比如給定含有$m$個樣本的資料集$D$，每次隨機的從中選擇一個樣本，放入新的資料集，然後將其放回初始資料集$D$，放回後有可能繼續被採集到，重複這個動作$m$次，我們就得到新的資料集$D'$。

用這種方式，我們可以取樣出TGE含m個訓練樣本的取樣集，然後基於每個取樣集訓練基學習器，再將基學習器進行結合，這便是Bagging的基本流程。

隨機森林
隨機森林是非常具有代表性的Bagging整合演算法，它在Bagging基礎上進行了強化。
它的所有基學習器都是CART決策樹，傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合（假定有d個屬性）中選擇最優屬性。但是隨機森林的決策樹，現在每個結點的屬性集合隨機選擇部分k個屬性的子集，然後在子集中選擇一個最優的特徵來做決策樹的左右子樹劃分,一般建議$k=log_2d$.分類決策樹組成的森林就叫做隨機森林分類器，迴歸決策樹所整合的森林就叫做隨機森林迴歸器。

RF的演算法：

輸入為樣本集$D={(x_,y_1),(x_2,y_2), ...(x_m,y_m)}$，弱分類器迭代次數T。

輸出為最終的強分類器$f(x)$

1）對於t=1,2...,T:
a)對訓練集進行第t次隨機取樣，共採集m次，得到包含m個樣本的取樣集Dt
b)用取樣集$D_t$訓練第t個決策樹模型$G_t(x)$，在訓練決策樹模型的節點的時候，在節點上所有的樣本特徵中選擇一部分樣本特徵，在這些隨機選擇的部分樣本特徵中選擇一個最優的特徵來做決策樹的左右子樹劃分

2)如果是分類演算法預測，則T個弱學習器投出最多票數的類別或者類別之一為最終類別。如果是迴歸演算法，T個弱學習器得到的迴歸結果進行算術平均得到的值為最終的模型輸出。

隨機森林引數解釋及設定建議

在scikit-learn中，RandomForest的分類類是RandomForestClassifier，迴歸類是RandomForestRegressor，需要調參的引數包括兩部分，第一部分是Bagging框架的引數，第二部分是CART決策樹的引數。這裡我們看一下scikit-learn中隨機森林的主要引數

隨機森林模型調參實戰

這是一道kaggle上的題目,通過信用卡交易記錄資料對欺詐行為進行預測,信用卡欺詐檢測檔案記錄了2013年9月歐洲信用卡持有者所發生的交易。在284807條交易記錄中共包含492條欺詐記錄。
資料集下載地址：請在公眾號後臺回覆[56]
需要說明的是，本文重點是RF模型調參，所以不涉及資料預處理、特徵工程和模型融合的內容，這些我會在本欄目未來的章節中再做介紹。
所以最終結果可能會不理想，這裡我們只關注通過調參給模型帶來的效能提升和加深對重要引數的理解即可。
1、匯入用到的包

import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

2、匯入資料

df = pd.read_csv("D:\WKS\PyProject\Credit_Card\creditcard.csv")
data=df.iloc[:,1:31]

284807條交易記錄中只有492條欺詐記錄，樣本嚴重不平衡，這裡我們需要使用下采樣策略（減少多數類使其數量與少數類相同）

X = data.loc[:, data.columns != 'Class']
y = data.loc[:, data.columns == 'Class']

number_records_fraud = len(data[data.Class == 1]) # class=1的樣本函式
fraud_indices = np.array(data[data.Class == 1].index) # 樣本等於1的索引值

normal_indices = data[data.Class == 0].index # 樣本等於0的索引值

random_normal_indices = np.random.choice(normal_indices,number_records_fraud,replace = False)
random_normal_indices = np.array(random_normal_indices)

under_sample_indices = np.concatenate([fraud_indices,random_normal_indices]) # Appending the 2 indices

under_sample_data = data.iloc[under_sample_indices,:] # Under sample dataset

X_undersample = under_sample_data.loc[:,under_sample_data.columns != 'Class']
y_undersample = under_sample_data.loc[:,under_sample_data.columns == 'Class']

X_train, X_test, y_train, y_test = train_test_split(X_undersample,y_undersample,test_size = 0.3, random_state = 0)

先用預設引數訓練RF

rf0 = RandomForestClassifier(oob_score=True, random_state=666)
rf0.fit(X_train,y_train)
print(rf0.oob_score_)
y_predprob = rf0.predict_proba(X_test)[:,1]
print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob))

0.9244186046511628
AUC Score (Train): 0.967082
除oob_score將預設的False改為True, 我們重點優化n_estimators、max_depth、min_samples_leaf 這三個引數。為簡單起見，模型評價指標，我們選擇AUC值。
模型調優我們採用網格搜尋調優引數（grid search），通過構建引數候選集合，然後網格搜尋會窮舉各種引數組合，根據設定評定的評分機制找到最好的那一組設定。
先優化n_estimators

param_test1 = {'n_estimators':range(10,101,10)}
gsearch1 = GridSearchCV(estimator = RandomForestClassifier(oob_score=True, random_state=666,n_jobs=2), 
                       param_grid = param_test1, scoring='roc_auc',cv=5)
gsearch1.fit(X_train,y_train)
gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

{'n_estimators': 50},
0.9799524239675649)
在優化後的n_estimators基礎上，優化max_features

param_test2 = {'max_depth':range(2,12,2)}
gsearch2 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= 50,oob_score=True, random_state=666,n_jobs=2),
   param_grid = param_test2, scoring='roc_auc',cv=5)
gsearch2.fit(X_train,y_train)
gsearch2.cv_results_, gsearch2.best_params_, gsearch2.best_score_

{'max_depth': 6},
0.9809897227343921)
在上述兩個引數優化結果的基礎上優化max_depth

param_test2 = {'min_samples_split':range(2,8,1)}
gsearch2 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= 50,max_depth=6,
                                  oob_score=True, random_state=666,n_jobs=2),
   param_grid = param_test2, scoring='roc_auc',cv=5)
gsearch2.fit(X_train,y_train)
gsearch2.cv_results_, gsearch2.best_params_, gsearch2.best_score_

{'min_samples_split': 5},
0.9819618127837587)

最後我們綜合再次嘗試

rf1 = RandomForestClassifier(n_estimators= 50,max_depth=6,min_samples_split=5,oob_score=True, random_state=666,n_jobs=2)
rf1.fit(X_train,y_train)
print(rf1.oob_score_)
y_predprob1 = rf1.predict_proba(X_test)[:,1]
print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob1))

0.9331395348837209
AUC Score (Train): 0.977811
最終結果比調參前有所提升

隨機森林優缺點總結

RF優點
1.不容易出現過擬合，因為選擇訓練樣本的時候就不是全部樣本。
2.可以既可以處理屬性為離散值的量，比如ID3演算法來構造樹，也可以處理屬性為連續值的量，比如C4.5演算法來構造樹。
3.對於高維資料集的處理能力令人興奮，它可以處理成千上萬的輸入變數，並確定最重要的變數，因此被認為是一個不錯的降維方法。此外，該模型能夠輸出變數的重要性程度，這是一個非常便利的功能。
4.分類不平衡的情況時，隨機森林能夠提供平衡資料集誤差的有效方法
RF缺點
1.隨機森林在解決迴歸問題時並沒有像它在分類中表現的那麼好，這是因為它並不能給出一個連續型的輸出。當進行迴歸時，隨機森林不能夠作出超越訓練集資料範圍的預測，這可能導致在對某些還有特定噪聲的資料進行建模時出現過度擬合。
2.對於許多統計建模者來說，隨機森林給人的感覺像是一個黑盒子——你幾乎無法控制模型內部的執行，只能在不同的引數和隨機種子之間進行嘗試。

參考：

https://www.jianshu.com/p/708dff71df3a
https://zhuanlan.zhihu.com/p/30461746
https://www.cnblogs.com/pinard/p/6156009.html

《百面機器學習》中有一道關於隨機森林的面試題，大家可以思考一下：
可否將隨機森林中的基分類器由決策樹替換為線性分類器或K-近鄰呢？

解答：隨機森林屬於Bagging類的整合學習，Bagging的主要好處是整合後的分類器的方差比基分類器方差小。Bagging採用的分類器最好是本身對樣本分佈比較敏感（即不穩定的分類器），這樣Bagging才有價值。線性分類器或K-近鄰都是比較穩定，本身方差就很小，所以以他們作為基分類器使用Bagging並不能獲得更好地表現，甚至可能因為Bagging的取樣導致訓練中更難收斂，從而增大整合分類器的偏差。

本文由部落格一文多發平臺 OpenWrite 釋出！

相關推薦

100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）

本文是對100天搞定機器學習|Day33-34 隨機森林的補充前文對隨機森林的概念、工作原理、使用方法做了簡單介紹，並提供了分類和迴歸的例項。本期我們重點講一下： 1、整合學習、Bagging和隨機森林概念及相互關係 2、隨機森林引數解釋及設定建議 3、隨機森林模型調參實戰 4、隨機森林模型優缺點總結整

100天搞定機器學習|Day33-34 隨機森林

前情回顧機器學習100天|Day1資料預處理 100天搞定機器學習|Day2簡單線性迴歸分析 100天搞定機器學習|Day3多元線性迴歸 100天搞定機器學習|Day4-6 邏輯迴歸 100天搞定機器學習|Day7 K-NN 100天搞定機器學習|Day8 邏輯迴歸的數學原理 100天搞定機器學習|Day9

100天搞定機器學習|Day3多元線性迴歸

前情回顧第二天100天搞定機器學習|Day2簡單線性迴歸分析，我們學習了簡單線性迴歸分析，這個模型非常簡單，很容易理解。實現方

100天搞定機器學習|Day4-6 邏輯迴歸

邏輯迴歸avik-jain介紹的不是特別詳細，下面再嘮叨一遍這個演算法。 1.模型在分類問題中，比如判斷郵件是否為垃圾郵件，判斷

100天搞定機器學習|Day15 樸素貝葉斯

Day15，開始學習樸素貝葉斯，先了解一下貝爺，以示敬意。托馬斯·貝葉斯 (Thomas Bayes),英國神學家、數學家、數理統計學家和哲學家，1702年出生於英國倫敦，做過神甫；1742年成為英國皇家學會會員；1763年4月7日逝世。貝葉斯曾是對概率論與統計的早期發展有重大影響的兩位（貝葉斯和布萊斯·帕

100天搞定機器學習|Day17-18 神奇的邏輯迴歸

前情回顧機器學習100天|Day1資料預處理 100天搞定機器學習|Day2簡單線性迴歸分析 100天搞定機器學習|Day3多元線性迴歸 100天搞定機器學習|Day4-6 邏輯迴歸 100天搞定機器學習|Day7 K-NN 100天搞定機器學習|Day8 邏輯迴歸的數學原理 100天搞定機器學習|Day9

100天搞定機器學習|Day23-25 決策樹及Python實現

演算法部分不再細講，之前發過很多：【算法系列】決策樹決策樹（Decision Tree）ID3演算法決策樹（Decision Tree）C4.5演算法決策樹（Decision Tree）CART演算法 ID3、C4.5、CART三種決策樹的區別實驗：匯入需要用到的python庫 import

100天搞定機器學習|Day 30-32 微積分的本質

3blue1brown系列課程，精美的動畫，配上生動的講解，非常適合幫助建立數學的形象思維，非常值得反覆觀看： http://www.3blue1brown.com/ 嗶哩嗶哩： https://space.bilibili.com/88461692 作者還把製作視訊的用到的程式碼放到了 github

100天搞定機器學習|Day35 深度學習之神經網路的結構

100天搞定機器學習|Day1資料預處理 100天搞定機器學習|Day2簡單線性迴歸分析 100天搞定機器學習|Day3多元線性迴歸 100天搞定機器學習|Day4-6 邏輯迴歸 100天搞定機器學習|Day7 K-NN 100天搞定機器學習|Day8 邏輯迴歸的數學原理 100天搞定機器學習|Day9-12

100天搞定機器學習|Day36用有趣的方式解釋梯度下降演算法

本文為3Blue1Brown神經網路課程講解第二部分《Gradient descent, how neural networks learn 》的學習筆記，觀看地址：www.bilibili.com/video/av16144388前文我們已經搭建了一個包含兩個隱藏層的神經網路，我們需要這樣一種演算法：網路得

100天搞定機器學習|day37 無公式理解反向傳播演算法之精髓

100天搞定機器學習（Day1-34） 100天搞定機器學習|Day35 深度學習之神經網路的結構 100天搞定機器學習|Day36 深度學習之梯度下降演算法本篇為100天搞定機器學習之第37天，亦為3Blue1Brown《深度學習之反向傳播演算法》學習筆記。上集提到我們

100天搞定機器學習|day38 反向傳播演算法推導

往期回顧 100天搞定機器學習|（Day1-36） 100天搞定機器學習|Day37無公式理解反向傳播演算法之精髓上集我們學習了反向傳播演算法的原理，今天我們深入講解其中的微積分理論，展示在機器學習中，怎麼理解鏈式法則。我們從一個最簡單的網路講起，每層只有一個神經元，圖上這個網路就是由三個權重

100天搞定機器學習|day39 Tensorflow Keras手寫數字識別

提示：建議先看day36-38的內容 TensorFlow™ 是一個採用資料流圖（data flow graphs），用於數值計算的開源軟體庫。節點（Nodes）在圖中表示數學操作，圖中的線（edges）則表示在節點間相互聯絡的多維資料陣列，即張量（tensor）。它靈活的架構讓你可以在多種平臺上展開計算，

100天搞定機器學習|day40-42 Tensorflow Keras識別貓狗

100天搞定機器學習|1-38天 100天搞定機器學習|day39 Tensorflow Keras手寫數字識別前文我們用keras的Sequential 模型實現mnist手寫數字識別，準確率0.9713。今天我們完成day40-42的課程，實現貓、狗的識別。本文資料集下載地址 https://down

100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

前文推薦如何正確使用「K均值聚類」？ KMeans演算法是典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。 K個初始聚類中心點的選取對聚類結果具有較大的影響，因為在該演算法第一步

從0到1 | 0基礎/轉行如何用3個月搞定機器學習

寫這篇文章的初衷是現在好多朋友都想了解如何入門/轉行機器學習，搭上人工智慧這列二十一世紀的快車。再加上這個問題每隔一陣子就會有人提及，因此想寫篇文章來個一勞永逸。文章的宗旨：指出學習中的一些誤區提供客觀可行的學習表給出進階學習的建議目標讀者是：零基礎，對人工智慧感興趣的讀者有基

一天搞懂機器學習PPT筆記-1

Introduction of Deep Learning some introductions Machine Learning is close to Looking for a Function The model is a set of fun

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

機器學習---演算法---隨機森林演算法

轉自：http://python.jobbole.com/86811/ 目錄 1 什麼是隨機森林 1.1 整合學習 1.2 隨機決策樹 1.3 隨機森林 1.4 投票 2 為什麼要用它 3 使用方法 3.1 變數選擇

機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林——CART模型PYTHON實現把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。其中CART模型：二叉決策樹，節點特徵只取值“是”與“否”；輸入特徵的切分方式，啟