特徵選擇(feature selection)

阿新 • • 發佈：2019-01-12

特徵選擇 feature selection

終於有時間把好久之前就想寫的關於特徵選擇的基本介紹補上來了，主要想從以下幾個方面介紹:

- 特徵選擇的動機–為什麼要特徵選擇
- 常見的特徵選擇方法–如何特徵選擇
- 特徵選擇的效果

一. 動機
提到特徵選擇的動機首先要說下維災難（the curse of dimensionality）,用個圖(圖片來自wiki)來形象的說明維災難：

所謂的維災難就是當特徵維度超過一定界限後，分類器的效能隨著特徵維度的增加反而下降（而且維度越高訓練模型的時間開銷也會越大）。導致分類器下降的原因往往是因為這些高緯度特徵中含有無關特徵和冗餘特徵，因此特徵選擇的主要目的是去除特徵中的無關特徵和冗餘特徵：

特徵子集

無關特徵：是指與當前學習任務無關的特徵（該特徵所提供的資訊對於當前學習任務無用），如對於學生成績而言，學號則是無關特徵。
冗餘特徵：是指該特徵所包含的資訊能從其他特徵推演出來，如對於“面積”這個特徵而言，從能從“長”和“寬”得出，則它是冗餘特徵。

二. 常見的特徵選擇方法

1.特徵選擇的基本框架

2.搜尋策略
常見的搜尋策略主要有三種：

完全搜尋
也就是列舉特徵集中的所有特徵組合從而選出最優的特徵子集，複雜度為O(2n)，因此實際應用中幾乎不用。
啟發式搜尋
啟發式搜尋策略主要有序列前向選擇（SFS，Sequential Forward Selection）和序列後向選擇（SFS，Sequential Forward Selection）等。假定原始特徵集是f

，挑選出來的特徵子集是fsub。序列前向搜尋策略首先把特徵子集fsub初始化為空集，每一步從f−fsub(餘下的特徵集)中選擇使得評價函式J（fsub+x）最優的特徵x直至評價函式J無法改進，該演算法便認為得到了最優的屬性子集。與序列前向搜尋策略相反的是，序列後向搜尋策略搜尋特徵子集fsub從全集開始，每次刪除一個屬性x，重複該過程，直到評價函式J（fsub−x）最優。序列前向搜尋策略和序列後向搜尋策略的思想都為貪心思想，因此有時候容易陷入到區域性最優中。
隨機搜尋
隨機搜尋策略，即在計算過程中把特徵選擇問題和禁忌搜尋演算法、模擬退火演算法和遺傳演算法等，或隨機重取樣過程結合起來以概率推理和隨機取樣作為演算法基礎，基於對分類有效性的評估，在計算過程中對每個特徵賦予一定的權重，然後根據自適應的閾值或者使用者自定義的閾值來對特徵重要性進行評估，選擇大於閾值的特徵。Relief系列演算法是典型的代表。

3.特徵選擇演算法的分類
常見的特徵選擇方法可以大致分為三類：過濾法(filter)、包裹式(wrapper)、嵌入式(embedding)。

過濾式（filter）
過濾式的基本原理如下圖所示：

其先對資料集進行特徵選擇，使用選擇出來的特徵子集訓練學習器，特徵選擇選擇過程與後續的學習器無關。
包裹式（wrapper）
過濾式的基本原理如下圖所示：

包裝法特徵選擇方法直接把最終將要使用的學習器的效能作為特徵子集的評價準則，這是與過濾法特徵選擇方法最大的區別。

Dash等人在總結Ben-Bassat等人、Doak等人的工作後將評價準則分為五類：距離度量（Distance Measure）、資訊增益度量（Information Gain Measure）、依賴性度量（Dependence Measure）、一致性度量（Consistency Measure）和分類器錯誤率度量（Classifier Error Rate Measure）。
（1）距離度量：距離度量一般認為是差異性或者分離性的度量，常用的距離度量方法有歐式距離等。對於一個二元分類問題，對於兩個特徵f1和f2，如果特徵f1引起的兩類條件概率差異大於特徵f2，則認為特徵f1優於特徵f2。
（2）資訊增益度量：特徵f的資訊增益定義為使用特徵f的先驗不確定性與期望的後驗不確性之間的差異。若特徵f1的資訊增益大於特徵f2的資訊增益，則認為特徵f1優於特徵f2。
（3）依賴性度量：依賴性度量又稱為相關性度量（Correlation Measure）、通常可採用皮爾遜相關係數（Pearson correlation coefficient）來計算特徵f與類別C之間的相關度，若特徵f1與類別C之間的相關性大於特徵f2與類別C之間的相關性，則認為特徵f1優於特徵f2。同樣也可以計算得到屬性與屬性之間的相關度，屬性與屬性之間的相關性越低越好。
（4）一致性度量：假定兩個樣本，若它們的特徵值相同，且所屬類別也相同，則認為它們是一致的：否則，則稱它們不一致。一致性常用不一致率來衡量，其嘗試找出與原始特徵集具有一樣辨別能力的最小的屬性子集。
（5）分類器錯誤率度量：該度量使用學習器的效能作為最終的評價閾值。它傾向於選擇那些在分類器上表現較好的子集。
以上5種度量方法中，距離度量（Distance Measure）、資訊增益度量（Information Gain Measure）、依賴性度量（Dependence Measure）、一致性度量（Consistency Measure）常用於過濾式（filter）；分類器錯誤率度量(Classifier Error Rate Measure)則用於包裹式(wrapper）。

關於過濾式和包裹式的對比如下圖所示：
filter vs wrapper

因為包裝式特徵選擇直接將最終將要使用的學習器的效能作為評價函式，因此從模型效能的角度出發，能夠發現包裝式特徵選擇的效能要優於過濾式特徵選擇，但是包裝式特徵選擇的時間開銷較大。而過濾式特徵選擇由於和特定的學習器無關，所以計算開銷小，泛化能力強於包裝式特徵選擇。因此，在實際應用中由於資料集很大，特徵維度高，過濾式特徵選擇應用的更廣泛些。

嵌入式（embedding）
嵌入式特徵選擇方法是將特徵選擇過程與學習器訓練過程融為一體，兩者在同一個優化過程中完成，即在學習器訓練過程中自動完成了特徵選擇。具體的內容可以參見周志華大牛的《機器學習》（西瓜書）。

三. 特徵選擇的效果
通過在平時的應用中能夠發現特徵選擇能夠明顯的改善學習器的精度，減少模型訓練時間，有效的避免維災難問題。

參考文獻：
[1]Dash M, Liu H. Feature Selection for Classification[J]. Intelligent Data Analysis, 1997,1(1-4):131–156.
[2]周志華.機器學習[M].北京:清華大學出版社,2016：252-253.

未經博主同意，不得盜用博文插圖，轉載請註明出處

特徵選擇(feature selection)