機器學習經典演算法總結(3)——特徵選擇
一、特徵的分類
1. 相關特徵:對當前學習任務有用的屬性。
2. 無關特徵:對當前學習任務沒有用的屬性。
3. 冗餘特徵:包含的資訊能從其他特徵中推演出來,冗餘特徵有時候不起作用,有時候則是有益的,對應了學習任務所需的“中間變數”。
二、特徵選擇
1. 概念:從給定的特徵集合中選擇出相關特徵的子集的過程。
2. 為什麼要進行特徵選擇?
(1)減輕維數災難問題
(2)降低學習任務的難度
3. 處理高維資料的兩大主流技術:特徵選擇和降維
4. 特徵選擇的簡單描述
從初始的特徵集合中產生一個“候選子集”,評價他的好壞,基於評價結果產生的下一個候選子集,再對其進行評價,迴圈進行直到無法找到更好的候選子集為止。
5. 兩個關鍵環節:
(1)“子集搜尋”問題——如何根據評價結果獲取下一個候選子集?
前向搜尋、後向搜尋、雙向搜尋;都是基於貪心的策略。
(2)“子集評價”問題——如何評價候選子集的好壞?
計算資訊增益、計算資訊熵、其他能劃分差異的機制……
6. 將特徵子集搜尋和子集評價機制相結合,即可得到特徵選擇方法。
三、特徵選擇方法分類
常見的特徵選擇方法大致分為三類:過濾式、包裹式、嵌入式。
1. 過濾式選擇(filter)
過濾式方法先對資料集進行特徵選擇,再訓練學習器,特徵選擇過程與後續學習器無關。
Relief是一種著名的過濾式特徵選擇方法,設計了一種相關統計量來度量特徵重要性。 適用於二分類問題。
2. 包裹式選擇(
與過濾式機器學習不考慮後續學習器不同,包裹式特徵選擇直接把最終要使用的學習器效能作為特徵子集的評價標準。
由於包裹式特徵選擇的方法直接針對給定學習器進行優化,包裹式特徵選擇比過濾式要好,計算開銷也要大得多。
LVW是一種典型的方法。採用隨機策略搜尋特徵子集,而每次特徵子集的評價都需要訓練學習器,開銷很大。
3. 嵌入式選擇(embedding)
嵌入式特徵選擇將特徵選擇過程和機器訓練過程融合為一體。兩者在同一優化過程中完成,即在學習器訓練過程中自動進行了特徵選擇。
w取得稀疏解意味著初始的d個特徵中僅有對應著w的非零分量的特徵才會出現在最終模型中