一些常見的特徵選擇方法
現實中產生的特徵維度可能很多,特徵質量參差不齊,不僅會增加訓練過程的時間,也可能會降低模型質量。因此,提取出最具代表性的一部分特徵來參與訓練就很重要了。
通常有特徵抽取和特徵選擇兩種方法。這裡分別介紹一下。
特徵抽取
特徵抽取中最常見的當屬PCA了。
PCA
對於特徵之間存在正交關係,資料滿足高斯分佈或指數分佈的資料,作線性變換,使用方差、協方差去噪,生成新的主元,接下來按重要性排序後取少數參與訓練,達到減少特徵的目的。
這裡最重要的思想是把多個特徵進行線性變換,使用較少的特徵表達原來多個特徵的主要特點。
由於現實中取得的資料絕大部分滿足高斯分佈,所以PCA應用極廣。
人臉識別應用
將多幅同一人的人臉影象進行PCA變換,找到代表人臉的主要特徵模型。當有新的人臉需要識別時,進行相同變換,並與已存在的人臉特徵模型進行匹配。
R應用方法
//PCA方案1:用SVD實現
pca1<-prcomp(USArrests, scale = TRUE)
//PCA方案2:採用線性代數中的實對稱均值的對角化實現
pca2<-princomp(USArrests,cor=T)
summary(pc1)
summary的輸出為:
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion 0.6201 0.8675 0.95664 1.00000
上面三行分別為標準差,方差貢獻率,累計方差貢獻率。
根據上面的資料,至PC3時,累計方差貢獻率已達0.95664,因此只取前三個特徵已經足夠。
特徵選擇
特徵選擇主要有Filter、Wrapper、Embedded等幾種不同的思路。這裡主要寫寫Filter。
卡方檢驗
在有不同特徵值的影響下,對兩組目標變數作卡方檢驗,計算x2值,看兩組資料是否有統計學上的明顯差異。
這裡給出R中的程式碼例子。
1、使用卡方檢驗判斷患者治療方式對治療效果的影響
library(vcd)//載入vcd資料包
//準備進行卡檢驗所需的資料,提取治療方式與治療效果
mytable<-xtabs(~Treatment+Improved,data=Arthritis)
//對mytable進行卡方檢驗
chisq.test(mytable)
以下是輸出結果
Pearson's Chi-squared test
data: mytable
X-squared = 13.055, df = 2, p-value = 0.001463
p < 0.01,可以判斷患者接受的治療方式對治療效果有明顯影響。
2、使用卡方檢驗判斷患者的性別對治療效果的影響
library(vcd)//載入vcd資料包
//準備進行卡檢驗所需的資料,提取患者性別與治療效果
mytable<-xtabs(~Improved+Sex,data=Arthritis)
//對mytable進行卡方檢驗
chisq.test(mytable)
以下是輸出結果
Pearson's Chi-squared test
data: mytable
X-squared = 4.8407, df = 2, p-value = 0.08889
p > 0.05,可以判斷患者的性別對治療效果無明顯影響。
上面的實驗中,p值表示不同列之間的相互獨立的概率。
在1中,由於p值很小,所以拒絕了治療方式與治療效果之間相互獨立的假設。
在2中,由於p值不夠小,所以無法拒絕性別與治療效果之間相互獨立的假設。
WOE、IV
接下來看看R中的應用
//安裝和載入woe包。
install.packages("woe")
library(woe)
//計算資料集mtcars中,cyl這一列對目標變數am的woe值和iv值。
woe(Data=mtcars,"cyl",FALSE,"am",10,Bad=0,Good=1)
以下是輸出結果
BIN BAD GOOD TOTAL BAD% GOOD% TOTAL% WOE IV BAD_SPLIT GOOD_SPLIT
1 4 3 8 11 0.158 0.615 0.344 135.9 0.621 0.273 0.727
2 6 4 3 7 0.211 0.231 0.219 9.1 0.002 0.571 0.429
3 8 12 2 14 0.632 0.154 0.438 -141.2 0.675 0.857 0.143
//計算資料集mtcars中,mpg這一列對目標變數am的woe值和iv值。
woe(Data=mtcars,"mpg",TRUE,"am",10,Bad=0,Good=1)
以下是輸出結果
BIN MIN MAX BAD GOOD TOTAL BAD% GOOD% TOTAL% WOE IV BAD_SPLIT GOOD_SPLIT
1 1 10.4 14.3 4 0 4 0.211 0.000 0.125 -Inf Inf 1.00 0.00
2 2 14.7 15.2 3 1 4 0.158 0.077 0.125 -71.9 0.058 0.75 0.25
3 3 15.5 17.3 3 1 4 0.158 0.077 0.125 -71.9 0.058 0.75 0.25
4 4 17.8 19.2 4 0 4 0.211 0.000 0.125 -Inf Inf 1.00 0.00
5 5 19.2 21.0 1 3 4 0.053 0.231 0.125 147.2 0.262 0.25 0.75
6 6 21.4 22.8 2 2 4 0.105 0.154 0.125 38.3 0.019 0.50 0.50
7 7 22.8 27.3 2 2 4 0.105 0.154 0.125 38.3 0.019 0.50 0.50
8 8 30.4 33.9 0 4 4 0.000 0.308 0.125 Inf Inf 0.00 1.00
資訊熵與資訊增益
資訊的熵,表示不確定性。
在一個數據集中,先對目標分類變數進行熵的計算,再對目標分類變數按某一個特徵值進行分組後進行一次熵的計算,兩次熵值之差就是該特徵值的資訊增益。特徵值的資訊增益越大,表示該特徵值的重要性越高。
這裡有一個前提,即,目標變數是一個分類變數。
這裡使用R語言程式碼作個說明
我原來寫過一篇老太太買菜與最大熵模型
一個老太太去買菜,市場上可供選擇的東西有以下幾種:西紅柿(1)、白菜(2)、豆腐(3)、鹹菜(4)、饅頭(5)、西瓜(6)、櫻桃(7)、蘋果(8)、豬肉(10)、牛肉(11)、羊肉(12)。不給出任何其它資訊之前,我們無法判斷老太太今天會買什麼菜。此時熵值最大,為
install.packages("entropy")
library(entropy)
y<-c(1,2,3,4,5,6,7,8,9,10,11,12)
//使用max likehood方式計算熵值
entropy(y,method = "ML")//輸出值為:2.327497
接下來,在給出4條老太太買菜習慣的資訊後,我們發現老太太今天只可能會買櫻桃或西瓜。
此時不確定性變小,熵值變小,為:
y<-c(6,7)
entropy(y,method = "ML")//輸出值為:0.6901857
因此,4條老太太買菜習慣的資訊增閃為:2.327497-0.6901857=1.637311
Gini指數
這個指標同資訊增益原理類似,哪個特徵對Gini指數貢獻大,哪個特徵重要。
給出R語言實現
不給出任何資訊時,Gini指數為:
install.packages("ineq")
library(ineq)
y<-c(1,2,3,4,5,6,7,8,9,10,11,12)
Gini(y)//輸出結果為:0.3055556
給出4個買菜習慣資訊後,Gini指數為:
y<-c(6,7)
Gini(y)//輸出結果為:0.03846154
相關性
資料集中的兩個特徵之間存在共線性,即較強的線性關係,就存在冗餘,在最終訓練時只使用其中一個就足夠。
這裡列出一些衡量相關性的值。
1、協方差與相關係數。
這兩個值描述的是兩個變數與各自期望值之間的誤差是否變動一致,它們之間可以互相轉換,一般使用相關係數較多。相關係數範圍為[-1,1],其中-1代表完全負相關,1代表完全正相關,0代表完全獨立。
這裡列出R應用方法
//計算兩列資料之間的相關係數
cor(mtcars$cyl,mtcars$disp,method = "pearson")//輸出值為:0.9020329,表示兩列資料正相關
cor(mtcars$mpg,mtcars$disp,method = "pearson")//輸出值為:-0.8475514,表示負相關
//計算兩列資料之間的協方差
cov(mtcars$cyl,mtcars$disp,method = "pearson")//輸出值為:199.6603
cov(mtcars$mpg,mtcars$disp,method = "pearson")//輸出值為:-633.0972
method取值有三種:
pearson:適用於連續變數,如分析血壓值和年齡的相關性。
spearman:適用於順序資料,如分析數學和語言成績排名相關性。
kendall:適用於有序分類變數,如分析疼痛級別分類和病情嚴重程式分類。
2、偏相關
當資料集中的特徵很多時,兩個特徵之間的相關性會受到很多其它特徵的影響。在排除掉其它特徵的影響之後,計算出來的兩個特徵的相關性係數,叫偏相關係數。
在特徵z固定的前提下,分析x、y的相關性,得到的是一階偏相關係數,在特徵z、q固定的前提下,得到的是二階偏相關係數。
這裡給出R應用
library(ggm)
data("marks")//載入marks資料集
var(marks)//計算marks資料集的方差矩陣
//計算固定analysis,statistics時,vectors和algebra的二階偏相關係數
pcor(c("vectors", "algebra", "analysis", "statistics"), var(marks))//輸出結果為:0.388203
pcor(c(2,3,4,5), var(marks))//與上一句程式碼意義相同
//偏相關係數的顯著性檢驗,入參分別為:偏相關係數,固定變數個數,樣本量
pcor.test(0.388203,2,dim(marks)[1])//輸出值p=0.0002213427,p<0.01,因此,在固定analysis,statistics時,vectors和algebra兩個特徵存在明顯偏相關性
Lasso
Lasso的基本思想是在迴歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於0的迴歸係數,達到特徵選擇的目的。
這裡給出R中的應用例子
data(diabetes)//載入資料集diabetes
//使用lasso進行特徵選擇
lars(diabetes$x,diabetes$y,type="lasso")
輸出結果為:
Call:
lars(x = diabetesx,y=diabetes y)
R-squared: 0.518
Sequence of LASSO moves:
bmi ltg map hdl sex glu tc tch ldl age hdl hdl
Var 3 9 4 7 2 10 5 8 6 1 -7 7
Step 1 2 3 4 5 6 7 8 9 10 11 12
Var行即是lasso給出的特徵選擇順序,Setp行即時順序編號。
以下方法可以得到各特徵的多重共線性:
data<-lars(diabetes$x,diabetes$y)
summary(data)
輸出結果為:
LARS/LASSO
Call: lars(x = diabetesx,y=diabetes y)
Df Rss Cp
0 1 2621009 453.7263
1 2 2510465 418.0322
2 3 1700369 143.8012
3 4 1527165 86.7411
4 5 1365734 33.6957
5 6 1324118 21.5052
6 7 1308932 18.3270
7 8 1275355 8.8775
8 9 1270233 9.1311
9 10 1269390 10.8435
10 11 1264977 11.3390
11 10 1264765 9.2668
12 11 1263983 11.0000
按data中Step行指定的順序,依次選取特徵,則Cp的值從上往下對應變化,Cp值越小,表示迴歸模型越精確。
如果我們取前3個特徵,則cp值為86.7411。如果取前7個特徵,則Cp值為8.8775,達到最小。
因此,計算量允許的範圍內,取前7個特徵進行訓練,得到的迴歸模型最精確。如果要嚴格控制計算量,則取前3個特徵即可。
總述
IV、資訊增益、Gini增益主要用於單特徵重要性評估。
Lasso主要用於超大規模特徵的降維篩選。