機器學習－淺談特徵選擇

阿新 • • 發佈：2019-01-11

很多時候我們需要做特徵選擇，一方面是因為我們希望模型能夠使用好的特徵擬合數據，另一方面多餘的特徵會導致模型複雜度高，降低模型的泛化能力。最常見的例子就是，文字分類，我們不可能把所有的詞都作為特徵，而是希望選一些“好的”詞作為特徵進入到模型。

下面我們簡單的談一談常用的幾種特徵選擇方法。

1、Frequency

如果在文字中，那麼就是詞頻了。去掉停用詞之後，選擇top frequency的詞作為特徵，顯然是最簡單的做法。這個方法的好處就是，因為frequency高，樣本中的該列特徵就不會稀疏，也許詞與詞之間組合起來就能形成區分力。

有一個簡單的改進，拿文字分類來說，我們可以在每個類下面選擇一些高頻的詞，然後把每個類的高頻詞並起來作為特徵。就像圖片中所描述的那樣，不同類別的高頻詞是不一樣的，這樣的詞作為特徵，區分能力不就有所提高了嗎？

但是簡單的使用Frequency有個問題，因為高頻，也就導致詞區分能力不強。比如說“很好”“不好”這樣的詞可能詞頻就很高，但是對於類別的區分就不是很強。但是總歸有一些tricky的方法能改進，比如說只取詞頻排在中間的詞，或者我只取高頻的實體名詞。但是都有點“拍腦袋”，不夠“智慧”。

2、TF/IDF

相比很多同學在資訊檢索中一定聽過TF/IDF，通常來說，我們需要計算query和doc的相似度，那麼就需要好的方法計算特徵詞的權重（當然你也可以簡單的使用01表示特徵詞是否出現）。比如說我們希望對於文件中的高頻詞，我們給予更高的權重，這就是TF的作用了。

但是，有的詞在很多文件中都出現，我們希望對這樣的詞的權重進行衰減；而對某些具有區分度的詞，我們希望有更好的權重，那麼這類詞能更好的反映文件的特性。這就是IDF的作用了，IDF認為，在少數文件中出現的詞，區分能力更強。

於是常用的TF/IDF權重表達公式就是：(tf/n)/log(df+1)，其中tf表示詞在該篇文件中頻率，n表示該篇文件詞總數，df表示該詞在文件集的文件頻率。

TF/IDF的動機是好的，但是是否“完美”，這個有待商榷。比如說某詞在同一類別下df就是很高，相反這樣的詞比一些低df的詞權重更低，這顯然不是好事。

3、Infromation Gain

上面提到的兩個方法都是非監督的，沒有用到樣本的label資訊。Information Gain是說選擇一個特徵，對於當前這個資料集分類的效果有多大的提升。資訊增益的本質計算的是，使用該特徵，使得資料集不確定性減少的多少，換言之就是該特徵帶來了多少的資訊量。

如果說一個特徵有01兩種取值，那麼IG的計算如下：

IG = Entropy - (p(f=0)Entropy(f=0) + p(f=1)Entropy(f=1))

公式的含義其實很簡單，資料集的資訊熵減去使用該特徵之後的資訊熵，顯然這就是使用該特徵獲取到的資訊增益。

其實這個方法就是我們熟知的決策樹分類器中，選擇特徵作為節點的方法。

4、Mutual Information

互資訊，描述的是兩個變數之間的依賴程度，互資訊越大，關聯性越強。計算公式很簡潔：

mi(a, b) = p(a, b) / (p(a) * p(b)) = p(a|b) / p(a) = p(b|a) / p(b)

其描述的就是某個變數在另一個變量出現的情況下的條件概率，佔該變量出現情況的比例。這個比例越大，顯然這兩個變數越相關。

如果其中一個變數是分類的結果，那麼其表示的就是一個特徵和分類結果的相關程度。但是該方法有個弊端就是，傾向於選出低頻的變數，因為越是低頻的特徵，分子和分母接近的可能性越大，所以導致這個方法選出的特徵比較低頻。

5、Pearson Coefficient

也就是我們常說的相關性係數，計算方法如下：

總體相關係數：

基於樣本對協方差和標準差進行估計，得到計算方法：

一種等價的表達方式為：

從最後一個式子可以看到，Pearson係數，其實計算的是標準化的樣本的內積。如果r＝1，那麼表示兩個變數線性正相關；如果為－1則是表示線性負相關。

對於文字分類來說，如果兩個變數分別表示類別和詞，那麼當兩者的相關性係數為正是，很大程度上說明該詞和該類別是正相關的，該詞能較好的確定是該類別；如果兩者的相關性係數為負，則從某種程度上說明該詞能判別不是該類。通常來說我們會選擇和類top 相關係數的詞作為特徵。

機器學習－淺談特徵選擇

機器學習－淺談特徵選擇

機器學習4---淺談神經網路

機器學習筆記(十一)特徵選擇和稀疏學習

機器學習之過濾式特徵選擇

Java學習筆記——淺談數據結構與Java集合框架（第一篇、List）

機器學習：模型評估和選擇

養成良好的學習習慣-淺談學習方法（2）

養成良好的學習習慣-淺談學習方法（1）

幾種機器學習平臺的對比和選擇

高等數學和數學分析教材推薦及其學習方法淺談

淺談CSS3選擇器

AI工程師成長之路--機器學習之模型評估與選擇

機器學習：模型估計於選擇(二)

機器學習：sklearn演算法引數選擇--網格搜尋

學習經驗淺談——論做學習筆記的重要性

淺談CSS選擇器中的空格

學習筆記-淺談神經網路對信用評級的應用

【機器學習－西瓜書】七、樸素貝葉斯分類器

用scikit-learn掌握機器學習（三）特徵提取和預處理

JVM學習之:淺談方法呼叫以及Override/Overload的原理

機器學習－淺談特徵選擇

相關推薦