【Machine Learning】使用隨機森林進行特徵選擇

阿新 • • 發佈：2019-01-08

一、特徵選擇

在我們做特徵工程時，當我們提取完特徵後，可能存在並不是所有的特徵都能分類起到作用的問題，這個時候就需要使用特徵選擇的方法選出相對重要的特徵用於構建分類器。此外，使用特徵選擇這一步驟也大大減少了訓練的時間，而且模型的擬合能力也不會出現很大的降低問題。

在特徵選擇的許多方法中，我們可以使用隨機森林模型中的特徵重要屬性來篩選特徵，並得到其與分類的相關性。由於隨機森林存在的固有隨機性，該模型可能每次給予特徵不同的重要性權重。但是通過多次訓練該模型，即每次通過選取一定量的特徵與上次特徵中的交集進行保留，以此迴圈一定次數，從而我們最後可以得到一定量對分類任務的影響有重要貢獻的特徵。

二、程式碼示例

# -*- coding: utf-8 -*-

import numpy as np
from sklearn.ensemble import RandomForestClassifier
import pickle
import matplotlib.pyplot as plt

with open('training_df.pkl', 'rb') as f:
    df = pickle.load(f)
print("data loaded")

y = df["y"]                                   #獲取標籤列
X = df.drop("y", axis=1)                      #剩下的所有特徵

for i in range(10):                           #這裡我們進行十次迴圈取交集
    tmp = set()
    rfc = RandomForestClassifier(n_jobs=-1)
    rfc.fit(X, y)
    print("training finished")

    importances = rfc.feature_importances_
    indices = np.argsort(importances)[::-1]   # 降序排列
    for f in range(X.shape[1]):
        if f < 50:                            #選出前50個重要的特徵
            tmp.add(X.columns[indices[f]])
        print("%2d) %-*s %f" % (f + 1, 30, X.columns[indices[f]], importances[indices[f]]))

    selected_feat_names &= tmp
    print(len(selected_feat_names), "features are selected")

plt.title("Feature Importance")
plt.bar(range(X.shape[1]),
        importances[indices],
        color='lightblue',
        align='center')
plt.xticks(range(X.shape[1]),
           X.columns[indices],
           rotation=90)
plt.xlim([-1, X.shape[1]])
plt.tight_layout()
plt.show()
 

with open(r'selected_feat_names.pkl', 'wb') as f:
    pickle.dump(list(selected_feat_names), f)

【Machine Learning】使用隨機森林進行特徵選擇

【Machine Learning】使用隨機森林進行特徵選擇

利用隨機森林進行特徵選擇

【Machine Learning】特徵工程之獨熱編碼(One-hot Encoding)

【Machine Learning】通過網格搜尋進行調參

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

【Machine :Learning】樸素貝葉斯

【生信】“隨機森林”在生物資訊學方面的應用

【Machine Learning 】線性迴歸

[Machine Learning & Algorithm] 隨機森林（Random Forest）

【Machine Learning】【Python】三、PSO + PCA優化SVM引數C和gamma ---- 《SVM物體分類和定位檢測》

【machine learning】GMM演算法（Python版）

【Machine learning】引數估計（個人通俗理解）

【Machine Learning】【Python】一、HoG + SVM 物體分類 ---- 《SVM物體分類和定位檢測》

【Machine Learning】Python開發工具：Anaconda+Sublime

【Machine Learning】機器學習及其基礎概念簡介

【Machine Learning】KNN演算法虹膜圖片識別

【Machine Learning】決策樹案例：基於python的商品購買能力預測系統

【Machine Learning】【Andrew Ng】- Quiz2(Week 6)

【Machine Learning】【Andrew Ng】- Quiz(Week 7)

【Machine learning】決策樹（decision tree ）

【Machine Learning】使用隨機森林進行特徵選擇

相關推薦