總結 | 常用文字特徵選擇

阿新 • • 發佈：2019-01-11

在機器學習中，特徵屬性的選擇通常關係到訓練結果的可靠性，一個好的特徵屬性通常能起到滿意的分類效果。凡是特徵選擇，總是在將特徵的重要程度量化後再進行選擇，而如何量化特徵的重要性，就成了各種方法間最大的不同。接下來就介紹如何有效地進行文字的特徵屬性選擇。

文字分類作為一種有效的資訊檢索和資訊過濾的關鍵技術，能按預定義的類別將待分類的文字進行歸類。文字分類中常用到向量空間模型（VSM），然而高維的向量空間模型嚴重影響了計算機的處理速度，因此需要對文字的向量進行降維，那麼就需要對文字進行特徵屬性選擇。目前在文字分類領域中常用的文字特徵屬性選擇演算法有：TF-IDF，資訊增益，卡方檢驗，互資訊等。

連結：http://blog.csdn.net/acdreamers/article/details/44661843

前面分享過文字常見特徵TF-IDFTF-IDF不容小覷、N-Gram等，今天對以上常見屬性做個總結，可以使我們有個整體把握。

TF-IDF與特徵屬性選擇

TF即詞頻（Term Frequency），表示詞條在某個文件d中出現的頻率。

IDF即逆向檔案頻率（Inverse Document Frequency），如果包含詞條t的文件越少，那麼IDF值越大，則說明詞條t具有很好的類別區分能力。

TF-IDF演算法的主要思想是：如果某個詞或短語在某一篇文章中的出現頻率TF越高，而且在其它文章中很少出現，那麼認為此詞或者短語具有很好的類別區分能力，適合用來分類。舉個例子如下所示：

假設某篇文件的總詞語數為100個，而“蜜蜂”出現了5次，那麼“蜜蜂”的詞頻就是0.05。如果“蜜蜂”這個詞在100份文件中出現，而文件總數為1000000，那麼逆向檔案頻率就是log10(1000000/100)=4。最後TF-IDF的值為0.05 * 4 = 0.2。公式如下所示。

當然在統計之前必須要過濾掉文件中的停用詞。當然TF-IDF的精確度有時候可能不太高，它仍有不足之處，單純地認為文字頻率越小的單詞就越重要，而文字頻率越大的單詞就越無用，顯然這並不完全正確。

接下來就可以用上面所學的TF-IDF來對文字進行特徵屬性選擇了。計算出文件中每個詞的TF-IDF的值，然後按照降序排列，取前面的幾個詞作為特徵屬性。這裡由於只取前K大的，有比較優秀的O(n)演算法。

在文字分類中單純地用TF-IDF來判斷一個特徵屬性是否具有區分度是不夠的，原因主要有如下兩個：

沒有考慮特徵詞在類間的分佈

如果一個特徵詞在各個類之間分佈都比較均勻，那麼這樣的詞對分類沒有任何貢獻；而如果一個特徵詞集中分佈在某個類中，在其它類中都出現但是出現的頻率很小很小，那麼這個詞能很好地代表這個類的特徵屬性，但是TF-IDF不能很好地區別這兩種情況。

沒有考慮特徵詞在類內部文件中的分佈

在類內部文件中，如果特徵詞均勻分佈在其中，那麼這個特徵詞能夠很好地代表這個類的特徵，如果只在幾篇文件中出現，那麼不能夠代表這個類的特徵。

資訊增益與特徵屬性選擇

資訊增益（Kullback–Leibler divergence）又叫做information divergence，relative entropy 或者KLIC。在資訊增益中，重要的衡量標準就是看這個特徵能夠為分類系統帶來多少資訊，帶來的資訊越多，那麼該特徵就越重要。通過資訊增益選擇的特徵屬性只能考察一個特徵對整個系統的貢獻，而不能具體到某個類別上，這就使得它只能做全域性特徵選擇，即所有的類使用相同的特徵集合。

卡方檢驗與特徵屬性選擇

卡方檢驗是數理統計中一種常用的檢驗兩個變數是否獨立的方法。在卡方檢驗中使用特徵與類別間的關聯性來進行量化，關聯性越強，特徵屬性得分就越高，該特徵越應該被保留。

卡方檢驗最基本的思想是觀察實際值和理論值的偏差來確定理論的正確性。通常先假設兩個變數確實是獨立的，然後觀察實際值與理論值的偏差程度，如果偏差足夠小，那麼就認為這兩個變數確實是獨立的，否則偏差很大，那麼就認為這兩個變數是相關的。

在文字特徵屬性選擇階段，一般用“詞t與類別c不相關”作出假設，計算出的卡方值越大，說明假設偏離就越大，假設越不正確。文字特徵屬性選擇過程為：計算每個詞與類別c的卡方值，然後排序取前K大的即可。

接下來，就來學習如何計算卡方值。

假設 n 個樣本的觀測值分別為 x1,x2,...,xn，它們的均值（期望）為 E，那麼卡方值計算如下

如果計算出的 X^2 值與事先設定的閥值進行比較，如果 X^2 小於閥值，則原假設成立，否則原假設不成立。

在文字特徵選擇階段，我們關心的是一個詞 t 與一個類別 c 之間是否獨立，如果獨立，則詞 t 對類別 c 完全沒有表徵作用。然而，卡方檢驗也有缺陷，會對低頻詞有所偏袒，這就是著名的‘低頻詞缺陷’，因此經常需要同詞頻綜合考慮來揚長避短。

互資訊與特徵屬性選擇

其實互資訊相比前面幾種特徵屬性選擇方法來說，效果是最差的。互資訊是事件A和事件B發生相關聯而提供的資訊量，在處理分類問題提取特徵的時候就可以用互資訊來衡量某個特徵和特定類別的相關性，如果資訊量越大，那麼特徵和這個類別的相關性越大。反之也是成立的。計算方法如下

低詞頻對於互資訊的影響還是蠻大的，一個詞如果頻次不夠多，但是又主要出現在某個類別裡，那麼就會出現較高的互資訊，從而給篩選帶來噪音。所以為了避免出現這種情況可以採用先對詞按照詞頻排序，然後按照互資訊大小進行排序，然後再選擇自己想要的詞，這樣就能比較好的解決這個問題。

搜狗語料庫：

http://www.sogou.com/labs/dl/c.html

近期熱文

... ...

接受過去和現在的模樣，才會有能量去追尋自己的未來。

更多幹貨內容請關注微信公眾號“AI 深入淺出”

長按二維碼關注

總結 | 常用文字特徵選擇

總結 | 常用文字特徵選擇

文字特徵選擇的關鍵演算法總結

[轉載]Scikit-learn介紹幾種常用的特徵選擇方法

結合Scikit-learn介紹幾種常用的特徵選擇方法

常用的特徵選擇演算法介紹

[轉]乾貨：結合Scikit-learn介紹幾種常用的特徵選擇方法

卡方檢驗文字特徵選擇

文字特徵選擇——TF-IDF演算法（Python3實現）

工程中常用的特徵選擇方法

文字分類——特徵選擇概述

秋招總結問題一：為什麼需要特徵選擇？特徵選擇有哪些？

學習理論、模型選擇、特徵選擇——斯坦福CS229機器學習個人總結（四）

總結特徵選擇（feature selection）演算法筆記

文字分類特徵選擇方法

文字挖掘之降維技術之特徵選擇

特徵選擇演算法總結

文字挖掘之特徵選擇(python 實現)

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

在文字的特徵選擇中學習到的東西——構建詞典

機器學習經典演算法總結（3）——特徵選擇

總結 | 常用文字特徵選擇

相關推薦