機器學習之特徵工程-特徵選擇

阿新 • • 發佈：2019-01-15

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

點選“閱讀原文”直接開啟【北京站 | GPU CUDA 進階課程】報名連結

一個基本的資料探勘場景如下：

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

資料探勘.jpg

從上面的資料探勘場景可知，當資料預處理完成後，我們需要選擇有意義的特徵，輸入機器學習的演算法模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：

特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。

特徵與目標的相關性：這點比較顯見，與目標相關性高的特徵，應當優選選擇。除方差法外，本文介紹的其他方法均從相關性考慮。

根據特徵選擇的形式又可以將特徵選擇方法分為3種：

Filter：過濾法，按照發散性或者相關性對各個特徵進行評分，設定閾值或者待選擇閾值的個數，選擇特徵。
Wrapper：包裝法，根據目標函式（通常是預測效果評分），每次選擇若干特徵，或者排除若干特徵。
Embedded：整合法，先使用某些機器學習的演算法和模型進行訓練，得到各個特徵的權值係數，根據係數從大到小選擇特徵。類似於Filter方法，但是是通過訓練來確定特徵的優劣。

我們使用sklearn中的feature_selection庫來進行特徵選擇。

Filter 0?wx_fmt=png

1方差法

使用方差法，要先計算各個特徵的方差，然後根據閾值，選擇方差大於閾值的特徵。使用feature_selection庫的VarianceThreshold類來選擇特徵的程式碼如下：

from sklearn.datasets import load_iris from sklearn.feature_selection import VarianceThreshold #方差選擇法，返回值為特徵選擇後的資料 #引數threshold為方差的閾值 iris = load_iris() print(iris.data[0]) print(iris.target[0]) print(VarianceThreshold(threshold=3).fit_transform(iris.data)[0])

從結果看，只有第三個屬性符合，結果如下：

[ 5.1 3.5 1.4 0.2]0[ 1.4]

皮爾遜係數

皮爾遜係數只能衡量線性相關性，先要計算各個特徵對目標值的相關係數以及相關係數的P值。用feature_selection庫的SelectKBest類結合皮爾遜係數來選擇特徵的程式碼如下：

from sklearn.feature_selection import SelectKBestfrom scipy.stats import pearsonrfrom sklearn.datasets import load_iris iris=load_iris()#選擇K個最好的特徵，返回選擇特徵後的資料#第一個引數為計算評估特徵是否好的函式，該函式輸入特徵矩陣和目標向量，輸出二元組（評分，P值）的陣列，陣列第i項為第i個特徵的評分和P值。在此定義為計算相關係數#引數k為選擇的特徵個數# 定義函式def multivariate_pearsonr(X, y): scores, pvalues = [], [] for ret in map(lambda x:pearsonr(x, y), X.T): scores.append(abs(ret[0])) pvalues.append(ret[1]) return (np.array(scores), np.array(pvalues)) transformer = SelectKBest(score_func=multivariate_pearsonr, k=2) Xt_pearson = transformer.fit_transform(iris.data, iris.target) print(Xt_pea

rson)

卡方檢驗

只能用於二分類，經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性。假設自變數有N種取值，因變數有M種取值，考慮自變數等於i且因變數等於j的樣本頻數的觀察值與期望的差距，構建統計量：

0?wx_fmt=png

不難發現，這個統計量的含義簡而言之就是自變數對因變數的相關性（http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C）。用feature_selection庫的SelectKBest類結合卡方檢驗來選擇特徵的程式碼如下：

from sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2 #選擇K個最好的特徵，返回選擇特徵後的資料 SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

互資訊法

互資訊係數能夠很好地度量各種相關性，但是計算相對複雜一些，互資訊計算公式如下：

0?wx_fmt=png

　　
使用feature_selection庫的SelectKBest類結合最大資訊係數法來選擇特徵的程式碼如下

from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import mutual_info_classif #選擇K個最好的特徵，返回選擇特徵後的資料 SelectKBest(mutual_info_classif, k=2).fit_transform(iris.data, iris.target)

Wrapper 0?wx_fmt=png

包裝法，根據目標函式（通常是預測效果評分），每次選擇若干特徵，或者排除若干特徵。

遞迴特徵消除法 0?wx_fmt=png

遞迴消除特徵法使用一個基模型來進行多輪訓練，每輪訓練後，消除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練。使用feature_selection庫的RFE類來選擇特徵的程式碼如下：

from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression #遞迴特徵消除法，返回特徵選擇後的資料

#引數estimator為基模型 #引數n_features_to_select為選擇的特徵個數 RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data,iris.target)

Embedded 0?wx_fmt=png

整合法，先使用某些機器學習的演算法和模型進行訓練，得到各個特徵的權值係數，根據係數從大到小選擇特徵。類似於Filter方法，但是是通過訓練來確定特徵的優劣。

基於樹模型的特徵選擇法 0?wx_fmt=png

樹模型中GBDT也可用來作為基模型進行特徵選擇，使用feature_selection庫的SelectFromModel類結合GBDT模型，來選擇特徵的程式碼如下：

from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import GradientBoostingClassifier #GBDT作為基模型的特徵選擇SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

當然還有別的方法：

通過特徵組合後再來選擇特徵：如對使用者id和使用者特徵組合來獲得較大的特徵集再來選擇特徵，這種做法在推薦系統和廣告系統中比較常見，這也是所謂億級甚至十億級特徵的主要來源，原因是使用者資料比較稀疏，組合特徵能夠同時兼顧全域性模型和個性化模型。

通過深度學習來進行特徵選擇：目前這種手段正在隨著深度學習的流行而成為一種手段，尤其是在計算機視覺領域，原因是深度學習具有自動學習特徵的能力，這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了。

文中涉及原始碼在此：原始碼（https://github.com/jacksu/machine-learning/blob/master/src/ml/feature_selection.ipynb）

皮爾遜係數

1、皮爾遜係數（https://www.zhihu.com/question/19734616）

2、普通資料探勘場景（http://www.cnblogs.com/jasonfreak/p/5448462.html）

3、https://www.zhihu.com/question/29316149

4、sklearn feature selection（http://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection）

原文連結：http://www.jianshu.com/p/2624521f87eb

BY 簡書

往期精彩回顧

640.png?

點選“閱讀原文”直接開啟【北京站 | GPU CUDA 進階課程】報名連結

機器學習之特徵工程-特徵選擇

機器學習之過濾式特徵選擇

AI工程師成長之路--機器學習之模型評估與選擇

機器學習之（四）特徵工程以及特徵選擇的工程方法

機器學習之特徵工程-特徵選擇

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

【機器學習】機器學習之特徵選擇

機器學習之特徵選擇方法整理

機器學習之特徵工程-資料預處理

Python機器學習之特徵工程

Spark機器學習之特徵提取、選擇、轉換

機器學習之特徵工程

系統學習機器學習之特徵工程（一）--維度歸約

機器學習之特徵值/特徵向量的解析和應用

系統學習機器學習之總結（二）--離散型特徵編碼方式：one-hot與啞變數*

機器學習筆記(十一)特徵選擇和稀疏學習

機器學習特徵工程特徵離散化

機器學習之Haar特徵

機器學習之 LBP特徵

sklearn學習——特徵工程(特徵選擇)

機器學習－淺談特徵選擇

機器學習之特徵工程-特徵選擇

相關推薦