機器學習：特徵工程

阿新 • • 發佈：2019-01-12

特徵選擇直接影響模型靈活性、效能及是否簡潔。

好特徵的靈活性在於它允許你選擇不復雜的模型，同時執行速度也更快，也更容易理解和維護。

特徵選擇

四個過程：產生過程，評價函式，停止準則，驗證過程。

目的：過濾特徵集合中不重要特徵，挑選一組最具統計意義的特徵子集，從而達到降維的效果。

選擇標準：特徵項和類別項之間的相關性（特徵重要性）。

- - -搜尋特徵子空間的產生過程- - -

搜尋的演算法分為完全搜尋(Complete)，啟發式搜尋(Heuristic)，隨機搜尋(Random) 3大類。

完全搜尋包括（4種）：廣度優先搜尋（窮舉法）、分支限界搜尋（窮舉法+剪枝）、定向搜尋（選擇TopN）、最優優先搜尋（TopN問題不限制N）

啟發式搜尋包括（6種）：

序列前向選擇SFS（簡單貪心，每次選使評價函式達到最優的特徵）、序列後向選擇SBS（簡單貪心，每次剔除特徵）、雙向搜尋BDS（SFS與SBS同時開始，碰撞時結束）；

增L去R選擇演算法 LRS（空集開始先加L後去R、全集開始先去R後加L）、序列浮動選擇（LRS法不固定L與R）、決策樹搜尋（讓樹充分生長、然後剪枝，通過資訊熵評價）

隨機演算法搜尋（3種）：隨機產生序列選擇演算法RGSS（隨機產生特徵子集，執行SFS或SBS）、模擬退火演算法SA（克服序列搜尋區域性最優、但最優解區域很小時不適用）、遺傳演算法GA（隨機產生特徵子集，評分，然後交叉、突變等繁衍出下一代特徵子集）

- - - - 特徵選擇與評價函式 - - - -

評價函式的作用是評價產生過程所提供的特徵子集的好壞。

評價函式根據其工作原理，主要分為篩選器(Filter)、封裝器( Wrapper )兩大類。

封裝器實質上是一個分類器，封裝器用選取的特徵子集對樣本集進行分類，分類的錯誤率作為衡量特徵子集好壞的標準。

篩選器通過分析特徵子集內部的特點來衡量其好壞。篩選器一般用作預處理，與分類器的選擇無關。特徵選擇法主要指篩選器的選擇方法。

篩選器選擇特徵：

預處理：首先去掉取值變化小的特徵（對系統影響最小、最不重要的特徵），接下來有四種方法：

單變數的特徵選擇方法、基於機器學習模型的選擇法、隨機森林法、頂層特徵選擇法（基於不同的模型選擇法）

1.單變數的特徵選擇方法

獨立地衡量每個特徵與響應變數之間的關係，分為兩大類：

基於距離計算的特徵選擇——Pearson相關係數，Gini-index（基尼指數），IG（資訊增益）、常規距離公式；

基於樹與交叉驗證的特徵選擇法——適用於非線性關係。

(1) Pearson相關係數

按照大學的線性數學水平來理解, 它可以看做是兩組資料的向量夾角的餘弦。

皮爾遜相關的約束條件：兩變數獨立、兩個變數間有線性關係、變數是連續變數、均符合正態分佈且二元分佈也符合正態分佈。

評價：

Pearson相關係數結果取值區間為[-1，1]，-1表示完全的負相關(這個變數下降，那個就會上升)，+1表示完全的正相關，0表示沒有線性相關。

優點：速度快、易於計算，經常在拿到資料(經過清洗和特徵提取之後的)之後第一時間就執行。

缺點：只對線性關係敏感。如果關係是非線性的，即便兩個變數具有一一對應的關係，Pearson相關性也可能會接近0。

(2) Gini-index（基尼指數）

基尼公式其中，X代表各組的人口比重，Y代表各組的收入比重，V代表各組累計的收入比重，i=1，2，3，…，n，n代表分組的組數。 GiniIndex的演算法為IBM智慧挖掘所使用的方法。 (3) IG（資訊增益）
G(D,A)=H(D)-H(D|A)

系統資訊熵：

條件熵（指特徵X被固定為值xi時）：

clip_image002[6]

條件熵（指特徵X被固定時）：

clip_image002[8]

資訊增益：

clip_image016

(4) 常規距離公式 (Distance Metrics )

運用距離度量進行特徵選擇是基於這樣的假設：好的特徵子集應該使得屬於同一類的樣本距離儘可能小，屬於不同類的樣本之間的距離儘可能遠。

常用的距離度量（相似性度量）包括歐氏距離、標準化歐氏距離、馬氏距離等。

(5) 基於樹與交叉驗證的特徵選擇法

假如某個特徵和響應變數之間的關係是非線性的，可以用基於樹的方法（決策樹、隨機森林）、交叉驗證、擴充套件的線性模型等。

基於樹的方法比較易於使用，因為他們對非線性關係的建模比較好，並且不需要太多的除錯。但要注意過擬合問題，因此樹的深度最好不要太大。

2.基於機器學習模型的選擇法

有些機器學習方法本身就具有對特徵進行打分的機制，或者很容易將其運用到特徵選擇任務中，例如迴歸模型，SVM，決策樹，隨機森林等等。

在一些地方叫做wrapper型別，大意是，特徵排序模型和機器學習模型是耦盒在一起的，對應的非wrapper型別的特徵選擇方法叫做filter型別。

例如在迴歸模型中利用的係數來選擇特徵。越是重要的特徵在模型中對應的係數就會越大，而跟輸出變數越是無關的特徵對應的係數就會越接近於0。在噪音不多的資料上，或者是資料量遠遠大於特徵數的資料上，如果特徵之間相對來說是比較獨立的，那麼即便是運用最簡單的線性迴歸模型也一樣能取得非常好的效果。同樣的方法和套路可以用到類似的線性模型上，比如邏輯迴歸。

正則化模型：就是把額外的約束或者懲罰項加到已有模型（損失函式）上，以防止過擬合併提高泛化能力。損失函式由原來的E(X,Y)變為E(X,Y)+alpha||w||，w是模型係數組成的向量（有些地方也叫引數parameter，coefficients），||·||一般是L1或者L2範數，alpha是一個可調的引數，控制著正則化的強度。當用線上性模型上時，L1正則化和L2正則化也稱為Lasso和Ridge。

3. 隨機森林

隨機森林具有準確率高、魯棒性好、易於使用等優點，這使得它成為了目前最流行的機器學習演算法之一。

隨機森林提供了兩種特徵選擇的方法：平均不純度減少、平均精確率減少。

(1) 平均不純度減少 (mean decrease impurity)

隨機森林由多個決策樹構成。決策樹中的每一個節點都是關於某個特徵的條件，為的是將資料集按照不同的響應變數一分為二。利用不純度可以確定節點（最優條件），對於分類問題，通常採用基尼不純度或者資訊增益，對於迴歸問題，通常採用的是方差或者最小二乘擬合。當訓練決策樹的時候，可以計算出每個特徵減少了多少樹的不純度。對於一個決策樹森林來說，可以算出每個特徵平均減少了多少不純度，並把它平均減少的不純度作為特徵選擇的值。

使用基於不純度的方法的時候，要注意：

1、這種方法存在偏向，對具有更多類別的變數會更有利；

2、對於存在關聯的多個特徵，其中任意一個都可以作為指示器（優秀的特徵），並且一旦某個特徵被選擇之後，其他特徵的重要度就會急劇下降，因為不純度已經被選中的那個特徵降下來了，其他的特徵就很難再降低那麼多不純度了，這樣一來，只有先被選中的那個特徵重要度很高，其他的關聯特徵重要度往往較低。在理解資料時，這就會造成誤解，導致錯誤的認為先被選中的特徵是很重要的，而其餘的特徵是不重要的，但實際上這些特徵對響應變數的作用確實非常接近的（這跟Lasso是很像的）。

特徵隨機選擇方法稍微緩解了這個問題，但總的來說並沒有完全解決。

(2) 平均精確率減少 (Mean decrease accuracy)

主要思路是直接度量每個特徵對模型精確率的影響，通過打亂每個特徵的特徵值順序，來度量順序變動對模型的精確率的影響。

很明顯，對於不重要的變數來說，打亂順序對模型的精確率影響不會太大，但是對於重要的變數來說，打亂順序就會降低模型的精確率。

4. 兩種頂層特徵選擇演算法

之所以叫做頂層，是因為他們都是建立在基於模型的特徵選擇方法基礎之上的，例如迴歸和SVM，在不同的子集上建立模型，然後彙總最終確定特徵得分。

有兩種方法：穩定性選擇 (Stability selection)；遞迴特徵消除RFE (Recursive feature elimination)

穩定性選擇是一種基於二次抽樣和選擇演算法相結合較新的方法，選擇演算法可以是迴歸、SVM或其他類似的方法。它的主要思想是在不同的資料子集和特徵子集上執行特徵選擇演算法，不斷的重複，最終彙總特徵選擇結果。比如可以統計某個特徵被認為是重要特徵的頻率（被選為重要特徵的次數除以它所在的子集被測試的次數）。理想情況下，重要特徵的得分會接近100%。稍微弱一點的特徵得分會是非0的數，而最無用的特徵得分將會接近於0。

遞迴特徵消除的主要思想是反覆的構建模型（如SVM或者回歸模型）然後選出最好的（或者最差的）的特徵（可以根據係數來選），把選出來的特徵放到一遍，然後在剩餘的特徵上重複這個過程，直到所有特徵都遍歷了。這個過程中特徵被消除的次序就是特徵的排序。因此，這是一種尋找最優特徵子集的貪心演算法。

- - - - 過濾器方法的簡單比較 - - - -

Lasso能夠挑出一些優質特徵，同時讓其他特徵的係數趨於0。當如需要減少特徵數的時候它很有用，但是對於資料理解來說不是很好用。（例如在結果中，X11,X12,X13的得分都是0，好像他們跟輸出變數之間沒有很強的聯絡，但實際上不是這樣的）

MIC對特徵一視同仁，這一點上和關聯絡數有點像。另外，它能夠找出X3和響應變數之間的非線性關係。

隨機森林基於不純度的排序結果非常鮮明。在得分最高的幾個特徵之後的特徵，得分急劇的下降。從表中可以看到，得分第三的特徵比第一的小4倍。而其他的特徵選擇演算法就沒有下降的這麼劇烈。

Ridge將回歸係數均勻的分攤到各個關聯變數上，從表中可以看出，X11,…,X14和X1,…,X4的得分非常接近。

穩定性選擇常常是一種既能夠有助於理解資料又能夠挑出優質特徵的這種選擇。像Lasso一樣，它能找到那些效能比較好的特徵（X1，X2，X4，X5），同時，與這些特徵關聯度很強的變數也得到了較高的得分。

參考資料：

機器學習：特徵工程

機器學習：特徵工程

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

機器學習-2.特徵工程和文字特徵提取

【機器學習】特徵工程多特徵值序列化數值化獨熱編碼處理(LabelEncoder, pd.factorize())

機器學習之特徵工程-資料預處理

Python機器學習之特徵工程

機器學習之特徵工程

機器學習之特徵工程-特徵選擇

系統學習機器學習之特徵工程（一）--維度歸約

機器學習2-特徵工程

機器學習筆記4：特徵工程

機器學習：Scikit-learn與特徵工程

機器學習：sklearn模型指標和特徵貢獻度檢視

AI學習筆記：特徵工程

機器學習：神經網絡之表達

從零單排入門機器學習：線性回歸（linear regression）實踐篇

機器學習：Python實現聚類算法(三)之總結

機器學習：線性判別式分析(LDA)

機器學習：緒論

機器學習：模型評估和選擇

機器學習：特徵工程

相關推薦