1. 程式人生 > >隨機森林進行特徵選取

隨機森林進行特徵選取

在隨機森林中某個特徵x的重要性的計算方式如下:

首先是對隨機森林的每一顆決策樹,使用對應的OOB(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1

這樣每個決策樹都可以得到一個error1,K顆數就有K個error1.

然後就是要遍歷所有的特徵,來考察該特徵的重要性,考察重要性的方式是,隨機的對袋外的資料OOB所有樣本的特徵x加入噪聲干擾,考察(可以理解為隨機得改變樣本在特徵x處的值),再次計算它袋外的資料誤差,記做error2,這樣每棵樹就可以得到一個error2,K顆樹就可以的得到K個error2.

之所以可以這樣的表示式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入噪聲之後,袋外的準確率大幅度下降,說明這個特徵對於樣本的分類結果影響很大,也就是說他的重要程度比較高.

對於特徵X的重要性=(error2-error1)/Ktree