1. 程式人生 > >ML—常見的特徵選擇方法

ML—常見的特徵選擇方法

華電北風吹
天津大學認知計算與應用重點實驗室
日期:2015/11/20

在統計分析中,由於事先並不知道什麼特徵與這個模式相關,而特徵對能否正確分類又起到至關重要的作用,因此特徵選擇是統計學習中必不可少的一步。目前常用的特徵選擇方案總的來說可以分為基於統計的和基於模型的。基於統計的比如F值,資訊增益等,可以對各個特徵直接進行選擇,不需要建模看模型好壞。基於模型的需要根據模型準確率等因素來逐步選擇或者刪除特徵。

一、F值(方差分析)
適用範圍:特徵取值連續,有監督,分類和迴歸
F值能夠作為特徵選擇的思路是:對於單個特徵來說假設這個特徵與類別標籤是無關的,因此這個特徵在各個類別下均值應該是相同的。在統計學上可以根據樣本個數和樣本類別個數構建F統計量,由對應的p值來決定是否拒絕這個假設。
在使用F值做特徵選擇的時候有兩種特徵選擇方案:一是設定顯著性水平p值,將特徵對應p值小於設定的閥值p的特徵作為有效特徵;另一種是設定需要選擇的特徵個數N,根據F值排序選擇F值最大的N個特徵作為有效特徵。

二、資訊增益和基尼係數
使用範圍:特徵取值離散,有監督,分類和迴歸
熵表示了資料分佈的不均衡程度。熵作為特徵選擇的思路是:對於單個特徵,如果特徵的不同取值裡面,類別標籤的純度比較高的話,如果根據經驗預測以後的話,這樣預測比較可靠。

三、相關係數
使用範圍:有監督,分類和迴歸
根據各個特徵與導師訊號的相關係數確定要選擇的特徵。相關係數大的特徵應該更有助於識別這個模式。還有一種就是對現有的特徵進行建模,根據殘差與導師訊號的相關係數進行特徵選擇。

四、距離
使用範圍:有監督,分類
根據特徵下,不同類別之間的距離選擇距離最大的一些特徵。

五、Least absolute shrinkage and selection operator(lasso)
基於線性迴歸,在最小二乘的目標函式上新增L1正則項(絕對值)。也可以用於多模特徵選擇(多工學習)。

六、特徵選擇步驟
在特徵選擇過程中有前向逐步新增特徵的特徵選擇方案,也有後向逐步刪除特徵的特徵選擇方案,也有將兩者進行結合的混合特徵選擇方案,這些方案都是基於模型的特徵選擇方案。