整合學習方法之隨機森林

阿新 • • 發佈：2020-12-20

1、什麼是整合學習方法

整合學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型，各自獨立地學習和作出預測。這些預測最後結合成組合預測，因此優於任何一個單分類的做出預測。

2、什麼是隨機森林

在機器學習中，隨機森林是一個包含多個決策樹的分類器，並且其輸出的類別是由個別樹輸出的類別的眾數而定。

例如, 如果你訓練了5個樹, 其中有4個樹的結果是True, 1個數的結果是False, 那麼最終投票結果就是True

3、隨機森林原理過程

學習演算法根據下列演算法而建造每棵樹：

用N來表示訓練用例（樣本）的個數，M表示特徵數目。
- 1、一次隨機選出一個樣本，重複N次，（有可能出現重複的樣本）
- 2、隨機去選出m個特徵, m <<M，建立決策樹
採取bootstrap抽樣

3.1 為什麼採用BootStrap抽樣

為什麼要隨機抽樣訓練集？　　
- 如果不進行隨機抽樣，每棵樹的訓練集都一樣，那麼最終訓練出的樹分類結果也是完全一樣的
為什麼要有放回地抽樣？
- 如果不是有放回的抽樣，那麼每棵樹的訓練樣本都是不同的，都是沒有交集的，這樣每棵樹都是“有偏的”，都是絕對“片面的”（當然這樣說可能不對），也就是說每棵樹訓練出來都是有很大的差異的；而隨機森林最後分類取決於多棵樹（弱分類器）的投票表決。

3.2 API

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
- 隨機森林分類器
- n_estimators：integer，optional（default = 10）森林裡的樹木數量120,200,300,500,800,1200
- criteria：string，可選（default =“gini”）分割特徵的測量方法
- max_depth：integer或None，可選（預設=無）樹的最大深度 5,8,15,25,30
- max_features="auto”,每個決策樹的最大特徵數量
  - If "auto", then max_features=sqrt(n_features).
  - If "sqrt", then max_features=sqrt(n_features) (same as "auto").
  - If "log2", then max_features=log2(n_features).
  - If None, then max_features=n_features.
- bootstrap：boolean，optional（default = True）是否在構建樹時使用放回抽樣
- min_samples_split:節點劃分最少樣本數
- min_samples_leaf:葉子節點的最小樣本數
超引數：n_estimator, max_depth, min_samples_split,min_samples_leaf

3.3 程式碼

# 隨機森林去進行預測
rf = RandomForestClassifier()

param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}

# 超引數調優
gc = GridSearchCV(rf, param_grid=param, cv=2)

gc.fit(x_train, y_train)

print("隨機森林預測的準確率為：", gc.score(x_test, y_test))

4、總結

在當前所有演算法中，具有極好的準確率
能夠有效地執行在大資料集上，處理具有高維特徵的輸入樣本，而且不需要降維
能夠評估各個特徵在分類問題上的重要性

提問

1、估計器的工作流程是什麼?

答案:

第一步: 例項化估計器

第二步: 呼叫估計器的fit函式, 用訓練集的特徵值和目標值訓練

第三步: 呼叫預測函式predict, 用測試集的特徵值預測

2、決策樹的劃分依據是什麼?(課程介紹的主要方法)

答案: 更具資訊增益最大的屬性劃分.

整合學習方法之隨機森林

1、什麼是整合學習方法整合學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型，各自獨立地學習和作出預測。這些預測最後結合成組合預測，因此優於任何一個單分類的做出預測。

機器學習演算法之隨機森林的R語言實現-表達晶片示例

終於還是要發這個系列了，其實我還沒有準備好，機器學習系列，有一個公眾號做的非常好，是中科院上海馬普所的幾個同學做的，過兩天我會在此推送他們的學習目錄，供大家欣賞。

機器學習之隨機森林

隨機森林模型　　bagging模型的核心思想是每次同類別、彼此之間無強關聯的基學習器，以均等投票機制進行基學習器的組合。

機器學習之決策樹和隨機森林

一、迴歸實踐程式碼知識點總結 sklearn常用庫函式總結： from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.linear_model import L

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

技術標籤：機器學習決策樹聚類機器學習一、需要匯入的庫： \'\'\' 作者:小宇最後完成日期：2021.2.28

LCE：一個結合了隨機森林和XGBoost優勢的新的整合方法

隨機森林 [Breiman, 2001] 和 XGBoost [Chen and Guestrin, 2016] 已成為解決分類和迴歸的許多挑戰的最佳機器學習方法。Local Cascade Ensemble (LCE) [Fauvel et al., 2022] 是一種新的機器學習方法，它結合了它們

laravel框架學習筆記之元件化開發實現方法

本文例項講述了laravel框架學習筆記之元件化開發實現方法。分享給大家供大家參考，具體如下：

vue學習筆記之過濾器的基本使用方法例項分析

本文例項講述了vue學習筆記之過濾器的基本使用方法。分享給大家供大家參考，具體如下：

Python GUI程式設計學習筆記之tkinter控制元件的介紹及基本使用方法詳解

本文例項講述了Python GUI程式設計學習筆記之tkinter控制元件的介紹及基本使用方法。分享給大家供大家參考，具體如下：

Netty原始碼學習系列之5-NioEventLoop的run方法

前言 NioEventLoop的run方法，是netty中最核心的方法，沒有之一。在該方法中，完成了對已註冊的channel上來自底層作業系統的socket事件的處理（在服務端時事件包括客戶端的連線事件和讀寫事件，在客戶端時是讀寫事件

前端乾貨之隨機相簿 Lorem Picsum（只需要按規則寫個網址就行，不需要整合任何外掛環境）

目錄前言基本用法獲取指定大小的隨機圖片獲取指定寬高的圖片獲得指定尺寸的正方形圖片通過id獲取指定圖片（非隨機）靜態隨機圖片（隨便寫個值就能獲取到圖片，值一樣，圖片就是一樣的）灰度圖片（灰色濾鏡處理後的圖

JAVA一週學習筆記之System方法

public static void arraycopy(Object src,int srcPos,Object dest,int destPos,int length)將陣列中指定的資料拷貝到另一個數組中。將src陣列中的前三個元素，複製到dest陣列中的前三個位置上

JAVA一週學習筆記之Calendar方法

Calendar類的成員方法:public int get(int filed):返回給定日曆欄位的值public void set(int filed,int value):將給定的日曆欄位設定為給定值public abstract void add(int field,int amount):根據日曆的規則，為給定

11-機器學習-隨機森林(bagging裝袋法的代表)

總結隨機森林 (以決策樹為基學習器)：隨機的體現資料集的隨機選擇：從原始資料集中採取有放回的抽樣bagging，構造子資料集。不同子資料集的元素可以重複，同一個子資料集中的元素也可以重複

SpringBoot學習系列之MyBatis Plus整合封裝的例項詳解

前言　　MyBatis-Plus是一款MyBatis的增強工具（簡稱MP），為簡化開發、提高效率，但我們並沒有直接使用MP的CRUD介面，而是在原來的基礎上封裝一層通用程式碼，單表繼承我們的通用程式碼，實現了單表的基礎get、sav

SpringBoot+shiro整合學習之登入認證和許可權控制

2019獨角獸企業重金招聘Python工程師標準>>> SpringBoot+shiro教程 http://z77z.oschina.io/2017/02/13/SpringBoot+shiro%E6%95%B4%E5%90%88%E5%AD%A6%E4%B9%A0%E4%B9%8B%E7%99%BB%E5%BD%95%E8

資料分析模型之決策樹及隨機森林

決策樹資訊熵熵原本是物理學中的⼀個定義，後來⾹農將其引申到了資訊理論領域，⽤來表示資訊量的⼤⼩。資訊量越⼤（分類越不“純淨”），對應的熵值就越⼤，反之亦然。

【機器學習】隨機森林原理與調參小結

之前在整合原理小結中總結了Bagging的原理。理解了bagging演算法，隨機森林(Random Forest,以下簡稱RF)就好理解了。它是Bagging演算法的進化版，也就是說，它的思想仍然是bagging,但是進行了獨有的改進。

隨機森林之根據汽車特徵評估質量

實驗內容根據汽車特徵評估質量接下來看看如何用分類技術解決現實問題。我們將用一個包含汽車多種細節的資料集，例如車門數量、後備箱大小、維修成本等，來確定汽車的質量。分類的目的是把車輛的質量分成4種型別：

flutter學習筆記之Dart-6建構函式和私有屬性、私有方法

技術標籤：flutter 一、構造方法 class Student { String name; int age; String school; //預設建構函式

整合學習方法之隨機森林

1、 什麼是整合學習方法

2、 什麼是隨機森林

3、 隨機森林原理過程

3.1 為什麼採用BootStrap抽樣

3.2 API

3.3 程式碼

4、總結

提問

1、估計器的工作流程是什麼?

2、決策樹的劃分依據是什麼?(課程介紹的主要方法)

相關推薦

1、什麼是整合學習方法

2、什麼是隨機森林

3、隨機森林原理過程