隨機森林進行特徵選取

阿新 • • 發佈：2019-02-18

在隨機森林中某個特徵x的重要性的計算方式如下:

首先是對隨機森林的每一顆決策樹,使用對應的OOB(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1

這樣每個決策樹都可以得到一個error1,K顆數就有K個error1.

然後就是要遍歷所有的特徵,來考察該特徵的重要性,考察重要性的方式是,隨機的對袋外的資料OOB所有樣本的特徵x加入噪聲干擾,考察(可以理解為隨機得改變樣本在特徵x處的值),再次計算它袋外的資料誤差,記做error2,這樣每棵樹就可以得到一個error2,K顆樹就可以的得到K個error2.

之所以可以這樣的表示式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入噪聲之後,袋外的準確率大幅度下降,說明這個特徵對於樣本的分類結果影響很大,也就是說他的重要程度比較高.

對於特徵X的重要性=∑(error2-error1)/Ktree

在隨機森林中某個特徵x的重要性的計算方式如下: 首先是對隨機森林的每一顆決策樹,使用對應的OOB(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1 這樣每個決策樹都可以得到一個error1,K顆數就有K個error1. 然後就是要遍歷所有的特徵,來考察該特徵的重

例子是wine資料集： http://archive.ics.uci.edu/ml/machine-learning-databases/wine/ 之所以可以利用隨即森立來進行特徵篩選是由於決策樹的特性，因此我們可以利用所有決策樹得到的平均不純度（基尼係數）

一、特徵選擇在我們做特徵工程時，當我們提取完特徵後，可能存在並不是所有的特徵都能分類起到作用的問題，這個時候就需要使用特徵選擇的方法選出相對重要的特徵用於構建分類器。此外，使用特徵選擇這一步驟也大大減少了訓練的時間，而且模型的擬合能力也不會出現很大的降低問

前言隨機森林是以決策樹為基學習器的整合學習演算法。隨機森林非常簡單，易於實現，計算開銷也很小，更令人驚奇的是它在分類和迴歸上表現出了十分驚人的效能，因此，隨機森林也被譽為“代表整合學習技術水平的方法”。本文是對隨機森林如何用在特徵選擇上做一個簡單的介紹。

文章目錄 0 Preface 1 載入資料 2 訓練隨機森林（train RF） 3 完整程式碼 0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS

0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS 訓練測試資料百度雲連結：點選下載密碼: u71o 檔案說明： - rf_julia_charReg - resizeData.py #批量

two methods: 1.Mean decrease impurity 大概是對於每顆樹，按照impurity（gini /entropy /information gain）給特徵排序，然

演算法效能的好壞跟資料是密不可分的，因此找到一組更具代表性的特徵子集顯得更加重要。在實際專案中，因為有的特徵對模型而言是冗餘的，它對演算法的效能會產生負面影響，此時就需要做特徵選擇。特徵選擇的目的就是從一組特徵集合中去除冗餘或不相關的特徵從而達到降維的目的。說到降維，它不

分類器屬於成功 and 分類新的 nts class 散點 randomForest 包提供了利用隨機森林算法解決分類和回歸問題的功能；我們這裏只關註隨機森林算法在分類問題中的應用首先安裝這個R包 install.packages("randomForest")

特徵挑選 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 IV值挑選特徵 3.2 隨機森林挑選特徵 3.3 將 IV值和隨機森林的特徵結合 3.4 訓練模型輸出結果 4 結果對比 5

任務分別用IV值和隨機森林挑選特徵，再構建模型，進行模型評估 1 利用iv值挑選特徵這次暫時先用學長計算好的iv值挑選特徵，之後再嘗試自己計算iv值。選擇iv

RandomTreesEmbedding提供了一種將資料對映到非常高維，稀疏表示的方法，這可能有利於分類。對映完全不受監督且非常有效。此示例視覺化由多個樹給出的分割槽，並顯示轉換如何也可用於非線性降維或非線性分類。相鄰的點通常共享樹的相同葉子，因此共享其散列表示的大部分。這允許簡單地基

特徵選擇之最小冗餘最大相關性(mRMR) 最小冗餘最大相關性(mRMR)是一種濾波式的特徵選擇方法，由Peng et.al提出。主要用途有機器學習，影象識別等。一種常用的特徵選擇方法是最大化特徵與分類變數之間的相關度，就是選擇與分類變數擁有最高相關度的前k個變數。但是，在特徵選擇中，

kaggle上泰坦尼克的年齡轉換為int型，0~80歲一共81個標籤。使用隨機森林分類準確率為0.47，然後再用這個模型去獲得未知的年齡資料。 import pandas as pd import numpy as np import tensorflow as tf from te

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

隨機 tro 過程能夠 ots pull 葉子節點合並 pan 決策樹　　決策樹學習采用的是自頂向下的遞歸方法, 其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零, 　　此時每個葉節點中的實例都屬於同一類。決策樹三種生成算法 ID3 -

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

and led != stc gin 隨機相對 overfit resin 關鍵參數最重要的，常常需要調試以提高算法效果的有兩個參數：numTrees，maxDepth。 numTrees（決策樹的個數）：增加決策樹的個數會降低預測結果的方差，這樣在測試時會有更高

方法 ring table shel evel 算法下使用 org trap 隨機森林算法由多個決策樹構成的森林，算法分類結果由這些決策樹投票得到，決策樹在生成的過程當中分別在行方向和列方向上添加隨機過程，行方向上構建決策樹時采用放回抽樣（bootstraping）得到