文字特徵選擇的關鍵演算法總結

阿新 • • 發佈：2019-01-29

一、特徵詞選擇與特徵詞權重關係

開始學文字分類的時候經常要搞暈特徵詞選擇和特徵詞權重 這兩個東西，因為兩者都要進行量化，很容易認為特徵詞選擇就是計算權重，因此我認為有必要先搞清楚這兩個概念。

兩者的區別 ：特徵詞選擇是為了降低文字表示的維度，而特徵詞權重是為了表示文字表示中每一個特徵項的重要程度。

特徵詞的選擇演算法 有：文字特徵選擇的演算法有基於文件頻率 (Document Frequency) 、資訊增益 (Information Gain, IG) 、開方擬和檢驗方法 (CHI 統計 ) 、互資訊 (mutual Information) 、潛在語義分析LSA、期望值交叉算熵、文字證據權、

term strength(TS) 、 GSS Coefficient 、 odds ratio等；

特徵詞的權值 （即所謂的文字表示）計算有：TF-IDF，TF的改進，資訊熵的引用等^[1] 。這個將在下篇進行分析一下。

二、特徵詞權重選擇方法分析

以下分別分析一下特徵詞的選擇演算法，由於資訊增益是很有效的特徵選擇方法，因此，將給出資訊增益的java程式碼。

1. 基於文件頻率（DF）

在文件頻率方法中，使用特徵詞在一個類別中出現的文件數來表示這個特徵詞與該類別的相關度。出現的文件數多的特徵詞被保留的可能性大。顯然，文件頻率方法實現最簡單、演算法複雜度最低，而且 DF

方法與其他幾種方法的分類效能也差不多。

計算公式：DF_term ：特徵詞term在某一類中的所有文件出現的次數。

改進公式：^[2]

缺點：待補充

2. 互資訊 (mutual Information)

在互資訊演算法中，採用計算特徵詞 t 和類別 c 之間的相關度：

其中， A 為在類別 c 中特徵詞 t 出現的文件數； B 為在除了類別 c 的其他類別中特徵詞 t 出現的文件數； C 為在類別 c 中特徵詞 t 未出現的文件數； N 為所有類別中的文件數的總和。如果共有 m 個類別，那麼每個特徵詞將得到 m 個相關度值，取這

m 個值的平均值作為每個特徵詞的權值，權值大的特徵詞被保留的可能性大。

缺點：待補充

3. 資訊增益 (Information Gain)

資訊增益 (IG) 是公認較好的特徵選擇方法，它刻畫了一個詞語在文字中出現與否對文字情感分類的影響，即一個詞語在文字中出現前後的資訊嫡之差。某個詞語的資訊增益值越大，說明它對分類的貢獻就越大。資訊增益的計算見公式：

P(Ci) ，表示類別 Ci 出現的概率，其實只要用 1 除以類別總數就得到了（這是說你平等的看待每個類別而忽略它們的大小時這樣算，如果考慮了大小就要把大小的影響加進去）。

P(t) ，就是特徵 t 出現的概率，只要用出現過 t 的文件數除以總文件數就可以了

P(Ci|t) 表示出現 t 的時候，類別 Ci 出現的概率，只要用出現了 T 並且屬於類別 Ci 的文件數除以出現了 T 的文件數就可以了^[3]

	/**
	 * @param j
	 * @return double
	 * 
	 */
	private double getFirstPart(int j) {
		double sum = 0;
		for (int i = 0; i < C; i++) {
			//log2(P(cj)) = ln(P(cj))/ln(2);
			sum += P_C(i) * (Math.log(P_C(j)) / Math.log(2));
			
		}
		return -sum;
	}

	/**
	 * @param j
	 * @return double
	 * TC[][] represents the number of documents including the term j and belonging to Classification j
	 */
	private double getSecondPart(int j) {
		double sum = 0;
		//P_Tj represents P(tj) which is the probability of the documents including term j  
		//That is , P(tj) = documents including term j / the total number of documents
		double P_Tj = this.P_t(j);
		for (int i = 0; i < C; i++) {
			if (TC[j][i] == 0)
				TC[j][i] = 1;
			//log2(TC) = ln(TC)/ln(2);
			sum += (double) TC[j][i]
					* ((double) Math.log(TC[j][i]) / (double) Math.log(2));
			
		}
		return P_Tj * sum;
	}

	/**
	 * @param j
	 * @return 　 double
	 * 
	 */
	private double getThirdPart(int j) {
		//p(tj) = 1 - p(t_barj)
		double P_t_bar_j = this.P_t_bar(j);
		double sum = 0.0;

		//T_barC = number of classifications -  number of docs including Term i and belonging to Classification j
		for (int i = 0; i < C; i++) {
			if (T_barC[j][i] == 0)
				T_barC[j][i] = 1;
			sum += (double) T_barC[j][i]
					* ((double) Math.log(T_barC[j][i]) / (double) Math.log(2));
		}

		return P_t_bar_j * sum;
	}

缺點：資訊增益最大的問題還在於它只能考察特徵對整個系統的貢獻，而不能具體到某個類別上，這就使得它只適合用來做所謂 “ 全域性 ” 的特徵選擇（指所有的類都使用相同的特徵集合），而無法做 “ 本地 ” 的特徵選擇（每個類別有自己的特徵集合，因為有的詞，對這個類別很有區分度，對另一個類別則無足輕重）。

4. 開方擬和檢驗方法 (CHI 統計 )

開方檢驗最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否。

缺點：待補充

5. 潛在語義分析LSA

LSA思想方法最初應用於文字資訊檢索領域有效地解決了同義詞和多義詞的問題,通過識別文字中的同義詞, LSA將資訊檢索精度提高了10%--30%

隨著應用領域的不斷拓展, LSI在資訊過濾、資訊分類/聚類、交叉語言檢索、資訊理解、判斷和預測等眾多領域中得到了廣泛的應用。（語義，降維）^[4]

計算奇異值矩陣，可以通過maltab svd 命令來解。

缺點：待補充

參考資料：

[1]. 馮長遠, 普傑信 Web 文字特徵選擇演算法的研究

[2]. 楊凱峰，張毅坤，李燕基於文件頻率的特徵選擇方法

[4]. 楊建武文字特徵提取技術

CSDN:http://blog.csdn.net/techq

百度：http://hi.baidu.com/futrueboy/home

javaeye：http://futrueboy.iteye.com/

聯絡方式：[email protected]

文字特徵選擇的關鍵演算法總結

文字特徵選擇的關鍵演算法總結

總結 | 常用文字特徵選擇

文字特徵選擇——TF-IDF演算法（Python3實現）

特徵選擇mRMR演算法程式碼實現及安裝下載

卡方檢驗文字特徵選擇

簡單選擇排序演算法總結

特徵選擇常用演算法綜述

總結特徵選擇（feature selection）演算法筆記

特徵選擇演算法總結

機器學習經典演算法總結（3）——特徵選擇

特徵選擇(2):mRMR特徵選擇演算法(matlab程式碼實現)

特徵選擇——Matrix Projection演算法研究與實現

文字分類——特徵選擇概述

基於互資訊的特徵選擇演算法MATLAB實現

特徵選擇演算法--Relief與ReliefK

秋招總結問題一：為什麼需要特徵選擇？特徵選擇有哪些？

排序演算法總結-選擇排序、插入排序、歸併排序和快速排序

基於模因框架的包裝過濾特徵選擇演算法

微陣列資料特徵選擇的模因演算法

八大演算法總結之穩定性的比較及演算法的選擇

文字特徵選擇的關鍵演算法總結

相關推薦