1. 程式人生 > >特征工程之特征選擇

特征工程之特征選擇

一定的 tar 所有 假設 最簡 處理 不錯 用戶 del

    特征工程是數據分析中最耗時間和精力的一部分工作,它不像算法和模型那樣是確定的步驟,更多是工程上的經驗和權衡。因此沒有統一的方法。這裏只是對一些常用的方法做一個總結。本文關註於特征選擇部分。後面還有兩篇會關註於特征表達和特征預處理。

1. 特征的來源

    在做數據分析的時候,特征的來源一般有兩塊,一塊是業務已經整理好各種特征數據,我們需要去找出適合我們問題需要的特征;另一塊是我們從業務特征中自己去尋找高級數據特征。我們就針對這兩部分來分別討論。

2. 選擇合適的特征

    我們首先看當業務已經整理好各種特征數據時,我們如何去找出適合我們問題需要的特征,此時特征數可能成百上千,哪些才是我們需要的呢?

    第一步是找到該領域懂業務的專家,讓他們給一些建議。比如我們需要解決一個藥品療效的分類問題,那麽先找到領域專家,向他們咨詢哪些因素(特征)會對該藥品的療效產生影響,較大影響的和較小影響的都要。這些特征就是我們的特征的第一候選集。

    這個特征集合有時候也可能很大,在嘗試降維之前,我們有必要用特征工程的方法去選擇出較重要的特征結合,這些方法不會用到領域知識,而僅僅是統計學的方法。

    最簡單的方法就是方差篩選。方差越大的特征,那麽我們可以認為它是比較有用的。如果方差較小,比如小於1,那麽這個特征可能對我們的算法作用沒有那麽大。最極端的,如果某個特征方差為0,即所有的樣本該特征的取值都是一樣的,那麽它對我們的模型訓練沒有任何作用,可以直接舍棄。在實際應用中,我們會指定一個方差的閾值,當方差小於這個閾值的特征會被我們篩掉。sklearn中的VarianceThreshold類可以很方便的完成這個工作。

    特征選擇方法有很多,一般分為三類:第一類過濾法比較簡單,它按照特征的發散性或者相關性指標對各個特征進行評分,設定評分閾值或者待選擇閾值的個數,選擇合適特征。上面我們提到的方差篩選就是過濾法的一種。第二類是包裝法,根據目標函數,通常是預測效果評分,每次選擇部分特征,或者排除部分特征。第三類嵌入法則稍微復雜一點,它先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小來選擇特征。類似於過濾法,但是它是通過機器學習訓練來確定特征的優劣,而不是直接從特征的一些統計學指標來確定特征的優劣。下面我們分別來看看3類方法。

2.1 過濾法選擇特征

    上面我們已經講到了使用特征方差來過濾選擇特征的過程。除了特征的方差這第一種方法,還有其他一些統計學指標可以使用。

    第二個可以使用的是相關系數。這個主要用於輸出連續值的監督學習算法中。我們分別計算所有訓練集中各個特征與輸出值之間的相關系數,設定一個閾值,選擇相關系數較大的部分特征。

    第三個可以使用的是假設檢驗,比如卡方檢驗。卡方檢驗可以檢驗某個特征分布和輸出值分布之間的相關性。個人覺得它比比粗暴的方差法好用。如果大家對卡方檢驗不熟悉,可以參看這篇卡方檢驗原理及應用,這裏就不展開了。在sklearn中,可以使用chi2這個類來做卡方檢驗得到所有特征的卡方值與顯著性水平P臨界值,我們可以給定卡方值閾值, 選擇卡方值較大的部分特征。

    除了卡方檢驗,我們還可以使用F檢驗和t檢驗,它們都是使用假設檢驗的方法,只是使用的統計分布不是卡方分布,而是F分布和t分布而已。在sklearn中,有F檢驗的函數f_classif和f_regression,分別在分類和回歸特征選擇時使用。

    第四個是互信息,即從信息熵的角度分析各個特征和輸出值之間的關系評分。在決策樹算法中我們講到過互信息(信息增益)。互信息值越大,說明該特征和輸出值之間的相關性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分類)和mutual_info_regression(回歸)來計算各個輸入特征和輸出值之間的互信息。

    以上就是過濾法的主要方法,個人經驗是,在沒有什麽思路的 時候,可以優先使用卡方檢驗和互信息來做特征選擇

2.2 包裝法選擇特征

    包裝法的解決思路沒有過濾法這麽直接,它會選擇一個目標函數來一步步的篩選特征。

    最常用的包裝法是遞歸消除特征法(recursive feature elimination,以下簡稱RFE)。遞歸消除特征法使用一個機器學習模型來進行多輪訓練,每輪訓練後,消除若幹權值系數的對應的特征,再基於新的特征集進行下一輪訓練。在sklearn中,可以使用RFE函數來選擇特征。

    我們下面以經典的SVM-RFE算法來討論這個特征選擇的思路。這個算法以支持向量機來做RFE的機器學習模型選擇特征。它在第一輪訓練的時候,會選擇所有的特征來訓練,得到了分類的超平面wx˙+b=0wx˙+b=0後,如果有n個特征,那麽RFE-SVM會選擇出ww中分量的平方值w2iwi2最小的那個序號i對應的特征,將其排除,在第二類的時候,特征數就剩下n-1個了,我們繼續用這n-1個特征和輸出值來訓練SVM,同樣的,去掉w2iwi2最小的那個序號i對應的特征。以此類推,直到剩下的特征數滿足我們的需求為止。

2.3 嵌入法選擇特征

    嵌入法也是用機器學習的方法來選擇特征,但是它和RFE的區別是它不是通過不停的篩掉特征來進行訓練,而是使用的都是特征全集。在sklearn中,使用SelectFromModel函數來選擇特征。

    最常用的是使用L1正則化和L2正則化來選擇特征。在之前講到的用scikit-learn和pandas學習Ridge回歸第6節中,我們講到正則化懲罰項越大,那麽模型的系數就會越小。當正則化懲罰項大到一定的程度的時候,部分特征系數會變成0,當正則化懲罰項繼續增大到一定程度時,所有的特征系數都會趨於0. 但是我們會發現一部分特征系數會更容易先變成0,這部分系數就是可以篩掉的。也就是說,我們選擇特征系數較大的特征。常用的L1正則化和L2正則化來選擇特征的基學習器是邏輯回歸。

    此外也可以使用決策樹或者GBDT。那麽是不是所有的機器學習方法都可以作為嵌入法的基學習器呢?也不是,一般來說,可以得到特征系數coef或者可以得到特征重要度(feature importances)的算法才可以做為嵌入法的基學習器。

3. 尋找高級特征

    在我們拿到已有的特征後,我們還可以根據需要尋找到更多的高級特征。比如有車的路程特征和時間間隔特征,我們就可以得到車的平均速度這個二級特征。根據車的速度特征,我們就可以得到車的加速度這個三級特征,根據車的加速度特征,我們就可以得到車的加加速度這個四級特征。。。也就是說,高級特征可以一直尋找下去。

    在Kaggle之類的算法競賽中,高分團隊主要使用的方法除了集成學習算法,剩下的主要就是在高級特征上面做文章。所以尋找高級特征是模型優化的必要步驟之一。當然,在第一次建立模型的時候,我們可以先不尋找高級特征,得到以後基準模型後,再尋找高級特征進行優化。

    尋找高級特征最常用的方法有:

    若幹項特征加和: 我們假設你希望根據每日銷售額得到一周銷售額的特征。你可以將最近的7天的銷售額相加得到。
    若幹項特征之差: 假設你已經擁有每周銷售額以及每月銷售額兩項特征,可以求一周前一月內的銷售額。
    若幹項特征乘積: 假設你有商品價格和商品銷量的特征,那麽就可以得到銷售額的特征。
    若幹項特征除商: 假設你有每個用戶的銷售額和購買的商品件數,那麽就是得到該用戶平均每件商品的銷售額。

    當然,尋找高級特征的方法遠不止於此,它需要你根據你的業務和模型需要而得,而不是隨便的兩兩組合形成高級特征,這樣容易導致特征爆炸,反而沒有辦法得到較好的模型。個人經驗是,聚類的時候高級特征盡量少一點,分類回歸的時候高級特征適度的多一點。

4. 特征選擇小結

    特征選擇是特征工程的第一步,它關系到我們機器學習算法的上限。因此原則是盡量不錯過一個可能有用的特征,但是也不濫用太多的特征。

出處:特征工程之特征選擇

特征工程之特征選擇