機器學習特徵選擇之卡方檢驗與互資訊

阿新 • • 發佈：2019-01-12

by wangben @ beijing

特徵選擇的主要目的有兩點：

1. 減少特徵數量提高訓練速度，這點對於一些複雜模型來說尤其重要

2. 減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化（generalization），從而在測試集中表現較差。另外從模型複雜度的角度來看，特徵越多模型的複雜度越高，也就越容易發生overfitting。

互資訊（Mutual information）和卡方檢驗（chisquare）是兩種比較常用的特徵選擇方法：

互資訊

互資訊是用來評價一個事件的出現對於另一個事件的出現所貢獻的資訊量，具體的計算公式為：

其中U、C代表兩個事件，e的取值可以為0或者1，1代表出現這個事件，0代表不出現。

把上述公式拆解為統計形式為：

其中N11是表示全部資料中兩個事件同時出現的概率，N表示全部事件出現的次數，而N_0.則表示N01+N00。

實際做單特徵選擇的時候，我們把某個特徵是否出現和分類是否正確這兩個事件放在一起計算。把得分較高的特徵進行保留。

需要注意的是計算時會遇到四種情況也就是，10,11,01,00，對於其中的某一種情況，當計算得到的值是0時，代表了兩者沒有關聯，當計算出的值是正值時，表示兩者共同出現的概率比較高，當值為負時，表示兩者是負相關。例如：00情況是負值是，表示兩者互相排斥，出現A時，B出現的概率就比較小，這個時候往往01情況和10情況的值為正（check）

卡方檢驗

在統計學中，卡方檢驗用來評價是兩個事件是否獨立，也就是P(AB) = P(A)*P(B)

其中E代表當兩者獨立時期望的數量，例如E₁₁代表兩個事件獨立時，共同出現的期望值。

具體的計算公式為：

相關資料例項：

查詢卡方分佈在自由度為1時的顯著性閾值：

284遠遠超過了10.83，所以二者並不獨立，存在相關性。

卡方檢驗和互資訊的區別

卡方檢驗對於出現次數較少的特徵更容易給出高分。例如某一個特徵就出現過一次在分類正確的資料中，則該特徵會得到相對高的分數，而互資訊則給分較低。其主要原因還是由於互資訊在外部乘上了一個該型別出現的概率值，從而打壓了出現較少特徵的分數。

實驗結果：

如果export只出現一次，且poultry為1

則在MI中的r11中log裡面結果是774106/27652，但是外部的P11非常小隻有1/N

在卡方檢驗中，E11的值為N*1/N*(27652/774106), 也就是27652/774106

（1 -27652/774106）^2/27652/774106

沒有再計算N11的比例，相對來說值會大一些

剛開始時，卡方檢驗會選擇一些小眾特徵，覆蓋率不好，噪音較大，所以效果不如互資訊方法，但是從100開始會選擇到一些較好的特徵，整體效果有所上升。

這兩種方法都屬於貪心方法，沒有考慮到已選擇特徵和待選特徵之間的相關性，並不能得到最優的情況。但是速度方面會非常快。

其他需要考慮的地方：是否特徵選擇的時候，計算概率，通過統計的方法對於一些小眾特徵偏差較大，通過增加先驗概率的方法進行平滑可以優化結果。

機器學習特徵選擇之卡方檢驗與互資訊

互資訊

卡方檢驗

卡方檢驗和互資訊的區別

機器學習特徵選擇之卡方檢驗與互資訊

特徵選擇之卡方統計 Chi-Square

機器學習特徵選擇方法

機器學習-特徵選擇

機器學習特徵工程之特徵抽取

機器學習特徵工程之特徵預處理

機器學習---特徵選擇

機器學習——特徵工程之子集搜尋與評價

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗文字特徵選擇

卡方檢驗用於特徵選擇

特徵選擇-卡方檢驗用於特徵選擇

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

機器學習+特徵工程vs深度學習—如何選擇

特徵選擇之方差選擇法VarianceThreshold

機器學習年鑑總結之偏差與方差

Spark MLlib 特徵抽取、轉化和選擇 -- 特徵選取：卡方選擇器

機器學習精簡教程之七——用scikit-learn做特徵提取

機器學習特徵選擇之卡方檢驗與互資訊

互資訊

卡方檢驗

卡方檢驗和互資訊的區別

相關推薦