使用隨機森林和mRMR進行特徵選擇

阿新 • • 發佈：2019-01-13

演算法效能的好壞跟資料是密不可分的，因此找到一組更具代表性的特徵子集顯得更加重要。在實際專案中，因為有的特徵對模型而言是冗餘的，它對演算法的效能會產生負面影響，此時就需要做特徵選擇。特徵選擇的目的就是從一組特徵集合中去除冗餘或不相關的特徵從而達到降維的目的。說到降維，它不僅包括特徵選擇，還包括了特徵提取，而本文主要介紹兩種常用的特徵選擇方法。

對於一個包含n個特徵的特徵集合，搜尋空間高達2n−1

種可能的子集，所以如果是使用窮舉法，不得不說下，窮舉法的結果確實很好，特徵少的時候或許可以考慮，但特徵多的時候必將帶來不可估量的計算量。所以我們需要找一種相對摺衷的方法。也就是下面談到的RF和mRMR。

Random Forest

注意：隨機森林使用的CART演算法的方法增長樹，也就是使用Gini指數來劃分。Gini指數度量的是資料分割槽或訓練集D的不純度（注意，這裡是不純度，跟熵有點不同）。基尼不純度表示的是一個隨機選中的樣本在子集中被分錯的可能性。基尼不純度為這個樣本被選中的概率乘上它被分錯的概率。當一個節點中所有樣本都是一個類時，基尼不純度為零。定義為：

$Gini(D) = 1 - \sum_{i=1}^m p_i^2$

假設A有v個不同的值出現在特徵D中，它的二元劃分有2v−2

種（除去自己和空集）。當考慮二元劃分裂時，計算每個結果分割槽的不純度加權和。比如A有兩個值，則特徵D被劃分成D1和D2,這時Gini指數為：

$Gini_A(D) = \frac{D_1}{D} Gini(D_1) + \frac{D_2}{D} Gini(D_2)$

Gini指數偏向於多值屬性，並且當類的數量很大時會有困難，而且它還傾向於導致相等大小的分割槽和純度。但實踐效果不錯。

如果訓練資料集有m維,樣本個數為n,則 CART演算法的時間複雜度為O(mnlogn2)

。

互資訊是條件概率與後驗概率的比值，化簡之後就可以得到資訊增益。所以說互資訊其實就是資訊增益。計算方法【互資訊=熵-條件熵】。熵描述的是不確定性。熵越大，不確定性就越大，條件熵H（B|A）描述的是在A給定的條件下B的不確定性，如果條件熵越小，表示不確定性就越小，那麼B就越容易確定結果。所以使用熵減去條件熵，就得到了資訊增益，他描述的不確定性的降低程度，可以用來度量兩個變數的相關性。比如，在給定一個變數的條件下，另一個變數它的不確定性能夠降低多少，如果不確定性降低得越多，那麼它的確定性就越大，就越容易區分，兩者就越相關。

IG(D,A)=H(D)−H(D|A)

隨機森林對於每一棵決策樹，首先對列（特徵）進行取樣，然後計算當前的Gini指數，隨後進行全分裂過程，每棵樹的非葉節點都有一個Gini指數，一棵樹建立之後可以得到該樹各個節點的重要性，通過對其按照Gini指數作為特徵相關性來排序，接著一次建立多棵決策樹，並且生成多個特徵相關性排名，最後對這些特徵選平均值，得到最終排好序的特徵重要性排名。

隨機森林OOB特徵選擇：

首先建立m棵決策樹，然後分別計算每棵樹的OOB袋外誤差errOOBj。
計算特徵xi

的重要性。隨機的修改OOB中的每個特徵xi的值，再次計算它的袋外誤差errOOBi；xi的重要性=∑errOOBi−errOOBjNtree

.
按照特徵的重要性排序，然後剔除後面不重要的特徵；
然後重複以上步驟，直到選出m個特徵。

在scikit-learn中封裝了random forest特徵選擇方法：

from sklearn.datasets import load_boston
from sklearn.ensemble import RandomForestRegressor
import numpy as np
#Load boston housing dataset as an example
boston = load_boston()
X = boston["data"]
Y = boston["target"]
names = boston["feature_names"]
rf = RandomForestRegressor()
rf.fit(X, Y)
print "Features sorted by their score:"
print sorted(zip(map(lambda x: round(x, 4), rf.feature_importances_), names), 
             reverse=True)

最後輸出的是：

Features sorted by their score:
[(0.5298, ‘LSTAT’), (0.4116, ‘RM’), (0.0252, ‘DIS’), (0.0172, ‘CRIM’), (0.0065, ‘NOX’), (0.0035, ‘PTRATIO’), (0.0021, ‘TAX’), (0.0017, ‘AGE’), (0.0012, ‘B’), (0.0008, ‘INDUS’), (0.0004, ‘RAD’), (0.0001, ‘CHAS’), (0.0, ‘ZN’)]

mRMR

最大相關最小冗餘（mRMR），顧名思義，我們可以知道，它不僅考慮到了特徵和label之間的相關性，還考慮到了特徵和特徵之間的相關性。度量標準使用的是互資訊(Mutual information)。對於mRMR方法，特徵子集與類別的相關性通過各個特徵與類別的資訊增益的均值來計算，而特徵與特徵的冗餘使用的是特徵和特徵之間的互資訊加和再除以子集中特徵個數的平方，因為I(xi,xj)計算了兩次。

No.1 最大相關性

目的：保證特徵和類別的相關性最大。

$max \ D(S, c),\ D = \frac{1}{|S|} \sum_{x_i \epsilon S } I(x_i; c)$

No.2 最小冗餘性

目的：確保特徵之間的冗餘性最小。

$min\ R(S, c),\ \ R = \frac{1}{|S|^2} \sum_{x_i,x_j \epsilon S } I(x_i; x_j)$

兩個式子中，S表示已經選擇的特徵子集，c表示classs_label，x表示特徵。最後選擇標準是：

maxΦ(D,R),Φ=D−R

使用隨機森林和mRMR進行特徵選擇

Random Forest

mRMR

使用隨機森林和mRMR進行特徵選擇

利用隨機森林進行特徵選擇

【Machine Learning】使用隨機森林進行特徵選擇

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

機器學習知識點查漏補缺（隨機森林和extraTrees）

隨機森林和決策樹調參

sklearn學習之使用sklearn進行特徵選擇

隨機森林和Adaboost區別

隨機森林和GBDT的幾個核心問題

如何進行特徵選擇

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

客戶逾期貸款預測[8] - 特徵選擇(iv值、隨機森林)

利用隨機森林對特徵重要性進行評估

隨機森林進行特徵選取

R包 randomForest 進行隨機森林分析

機器學習(十三) 集成學習和隨機森林（上）

機器學習(十三) 集成學習和隨機森林（下）

Spark_Mllib系列之二———提取，轉化和特徵選擇

特徵選擇(2):mRMR特徵選擇演算法(matlab程式碼實現)

使用隨機森林和mRMR進行特徵選擇

Random Forest

mRMR

相關推薦