文字分類——KNN演算法

阿新 • • 發佈：2019-01-29

上一篇文章已經描述了樸素貝葉斯演算法newgroup的分類實現，這篇文章採用KNN演算法實現newgroup的分類。

文中程式碼參考：http://blog.csdn.net/yangliuy/article/details/7401142

1、KNN演算法描述

對於KNN演算法，前面有一篇文章介紹其思想，但是按個事例採用的模擬的數值資料。本文將採用KNN進行文字分類。演算法步驟如下：

（1）文字預處理，向量化，根據特徵詞的TF*IDF值計算（上一篇文章已經處理）

（2）當新文字到達後，根據特徵詞計算新文字的向量

（3）在訓練文字中選出與新文字最相近的K個文字，相似度用向量夾角的餘弦值度量。

注：K的值目前沒有好的辦法確定，只有根據實驗來調整K的值

（4）在新文字的K個相似文字中，依此計算每個類的權重，每個類的權重等於K個文字中屬於該類的訓練樣本與測試樣本的相似度之和。

（5）比較類的權重，將文字分到權重最大那個類別中

2、KNN演算法實現

KNN演算法的實現要注意

(1)用TreeMap<String,TreeMap<String,Double>>儲存測試集和訓練集
(2)注意要以"類目_檔名"作為每個檔案的key，才能避免同名不同內容的檔案出現

package com.datamine.NaiveBayes;

import java.io.*;
import java.util.*;

/**
 * KNN演算法的實現類，本程式用向量夾角餘弦計算相識度
 * @author Administrator
 */
public class KNNClassifier {

	/**
	 * 用knn演算法對測試文件集分類，讀取測試樣例和訓練樣例集
	 * @param trainFiles 訓練樣例的所有向量構成的檔案
	 * @param testFiles  測試樣例的所有向量構成的檔案
	 * @param knnResultFile KNN分類結果檔案路徑
	 * @throws Exception 
	 */
	private void doProcess(String trainFiles, String testFiles,
			String knnResultFile) throws Exception {
		/*
		 * 首先讀取訓練樣本和測試樣本，用map<String,map<word,TF>>儲存測試集和訓練集，注意訓練樣本的類目資訊也得儲存
		 * 然後遍歷測試樣本，對於每一個測試樣本去計算它與所有訓練樣本的相識度，相識度儲存到map<String,double>有序map中
		 * 然後取錢K個樣本，針對這k個樣本來給它們所屬的類目計算權重得分，對屬於同一個類目的權重求和進而得到最大得分的類目
		 * 就可以判斷測試樣例屬於該類目下，K值可以反覆測試，找到分類準確率最高的那個值
		 * 注意：
		 *  1、要以"類目_檔名"作為每個檔案的key，才能避免同名不同內容的檔案出現
		 *  2、注意設定JM引數，否則會出現JAVA Heap溢位錯誤
		 *  3、本程式用向量夾角餘弦計算相識度
		 */
		File trainSample = new File(trainFiles);
		BufferedReader trainSampleBR = new BufferedReader(new FileReader(trainSample));
		String line;
		String[] lineSplitBlock;
		//trainFileNameWordTFMap<類名_檔名,map<特徵詞,特徵權重>>
		Map<String,TreeMap<String,Double>> trainFileNameWordTFMap = new TreeMap<String, TreeMap<String,Double>>();
		//trainWordTFMap<特徵詞,特徵權重>
		TreeMap<String,Double> trainWordTFMap = new TreeMap<String, Double>();
		while((line = trainSampleBR.readLine()) != null){
			lineSplitBlock = line.split(" ");
			trainWordTFMap.clear();
			for(int i =2 ;i<lineSplitBlock.length;i = i+2){
				trainWordTFMap.put(lineSplitBlock[i], Double.valueOf(lineSplitBlock[i+1]));
			}
			TreeMap<String,Double> tempMap = new TreeMap<String, Double>();
			tempMap.putAll(trainWordTFMap);
			trainFileNameWordTFMap.put(lineSplitBlock[0]+"_"+lineSplitBlock[1], tempMap);
		}
		trainSampleBR.close();
		
		File testSample = new File(testFiles);
		BufferedReader testSampleBR = new BufferedReader(new FileReader(testSample));
		Map<String,Map<String,Double>>  testFileNameWordTFMap = new TreeMap<String, Map<String,Double>>();
		Map<String,Double> testWordTFMap = new TreeMap<String, Double>();
		while((line = testSampleBR.readLine()) != null){
			lineSplitBlock = line.split(" ");
			testWordTFMap.clear();
			for(int i =2;i<lineSplitBlock.length;i = i+2){
				testWordTFMap.put(lineSplitBlock[i], Double.valueOf(lineSplitBlock[i+1]));
			}
			TreeMap<String,Double> tempMap = new TreeMap<String, Double>();
			tempMap.putAll(testWordTFMap);
			testFileNameWordTFMap.put(lineSplitBlock[0]+"_"+lineSplitBlock[1], tempMap);
		}
		testSampleBR.close();
		
		//下面遍歷每一個測試樣例計算所有訓練樣本的距離，做分類
		String classifyResult;
		FileWriter knnClassifyResultWriter = new FileWriter(knnResultFile);
		Set<Map.Entry<String, Map<String,Double>>> testFileNameWordTFMapSet = testFileNameWordTFMap.entrySet();
		
		for(Iterator<Map.Entry<String, Map<String,Double>>> it = testFileNameWordTFMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, Map<String,Double>> me = it.next();
			
			classifyResult = knnComputeCate(me.getKey(),me.getValue(),trainFileNameWordTFMap);
			
			knnClassifyResultWriter.append(me.getKey()+" "+classifyResult+"\n");
			knnClassifyResultWriter.flush();
		}
		knnClassifyResultWriter.close();
	}
	
	
	/**
	 * 對於每一個測試樣本去計算它與所有訓練樣本的向量夾角餘弦相識度
	 * 相識度儲存入map<String,double>有序map中，然後取前k個樣本
	 * 針對這k個樣本來給他們所屬的類目計算權重得分，對屬於同一個類目的權重求和進而得到最大得分類目
	 * k值可以反覆測試，找到分類準確率最高的那個值
	 * @param testFileName 測試檔名 "類別名_檔名"
	 * @param testWordTFMap 測試檔案向量  map<特徵詞,特徵權重>
	 * @param trainFileNameWordTFMap 訓練樣本<類目_檔名,向量>
	 * @return K個鄰居權重得分最大的類目
	 */
	private String knnComputeCate(String testFileName, Map<String, Double> testWordTFMap, 
			Map<String, TreeMap<String, Double>> trainFileNameWordTFMap) {

		//<類目_檔名,距離> 後面需要將該HashMap按照value排序
		HashMap<String,Double> simMap = new HashMap<String, Double>();
		double similarity;
		Set<Map.Entry<String, TreeMap<String,Double>>> trainFileNameTFMapSet = trainFileNameWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, TreeMap<String,Double>>> it = trainFileNameTFMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, TreeMap<String,Double>> me = it.next();
			similarity = computeSim(testWordTFMap,me.getValue());
			simMap.put(me.getKey(), similarity);
		}
		
		//下面對simMap按照value降序排序
		ByValueComparator bvc = new ByValueComparator(simMap);
		TreeMap<String,Double> sortedSimMap = new TreeMap<String, Double>(bvc);
		sortedSimMap.putAll(simMap);
		
		//在disMap中取前K個最近的訓練樣本對其類別計算距離之和，K的值通過反覆試驗而得
		Map<String,Double> cateSimMap = new TreeMap<String, Double>(); //k個最近訓練樣本所屬類目的距離之和
		double K = 20;
		double count = 0;
		double tempSim ;
		
		Set<Map.Entry<String, Double>> simMapSet = sortedSimMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = simMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, Double> me = it.next();
			count++;
			String categoryName = me.getKey().split("_")[0];
			if(cateSimMap.containsKey(categoryName)){
				tempSim = cateSimMap.get(categoryName);
				cateSimMap.put(categoryName, tempSim+me.getValue());
			}else
				cateSimMap.put(categoryName, me.getValue());
			
			if(count>K)
				break;
		}
		//下面到cateSimMap裡面吧sim最大的那個類目名稱找出來
		double maxSim = 0;
		String bestCate = null;
		Set<Map.Entry<String, Double>> cateSimMapSet = cateSimMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = cateSimMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, Double> me = it.next();
			if(me.getValue() > maxSim){
				bestCate = me.getKey();
				maxSim = me.getValue();
			}
		}
		return bestCate;
	}

	/**
	 * 計算測試樣本向量和訓練樣本向量的相識度
	 * sim(D1,D2)=(D1*D2)/(|D1|*|D2|)
	 * 例：D1(a 30;b 20;c 20;d 10) D2(a 40;c 30;d 20; e 10)
	 * D1*D2 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000
	 * |D1| = sqrt(30*30+20*20+20*20+10*10) = sqrt(1800)
	 * |D2| = sqrt(40*40+30*30+20*20+10*10) = sqrt(3000)
	 * sim = 0.86;
	 * @param testWordTFMap  當前測試檔案的<單詞，權重>向量
	 * @param trainWordTFMap 當前訓練樣本<單詞，權重>向量
	 * @return 向量之間的相識度，以向量夾角餘弦計算
	 */
	private double computeSim(Map<String, Double> testWordTFMap,
			TreeMap<String, Double> trainWordTFMap) {
		
		// mul = test*train  testAbs = |test|  trainAbs = |train|
		double mul = 0,testAbs = 0, trainAbs = 0;
		Set<Map.Entry<String, Double>> testWordTFMapSet = testWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = testWordTFMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, Double> me = it.next();
			if(trainWordTFMap.containsKey(me.getKey())){
				mul += me.getValue()*trainWordTFMap.get(me.getKey());
			}
			testAbs += me.getValue()*me.getValue();
		}
		testAbs = Math.sqrt(testAbs);
		
		Set<Map.Entry<String, Double>> trainWordTFMapSet = trainWordTFMap.entrySet();
		for(Iterator<Map.Entry<String, Double>> it = trainWordTFMapSet.iterator();it.hasNext();){
			
			Map.Entry<String, Double> me = it.next();
			trainAbs += me.getValue()*me.getValue();
		}
		trainAbs = Math.sqrt(trainAbs);
		
		return mul / (testAbs * trainAbs);
	}


	/**
	 * 根據knn演算法分類結果檔案生成正確類目檔案，而正確率和混淆矩陣的計算可以複用貝葉斯演算法中的方法
	 * @param knnResultFile 分類結果檔案   <"目錄名_檔名",分類結果>
	 * @param knnRightFile 分類正確類目檔案  <"目錄名_檔名",正確結果>
	 * @throws IOException 
	 */
	private void createRightFile(String knnResultFile, String knnRightFile) throws IOException {
		
		String rightCate;
		FileReader fileR = new FileReader(knnResultFile);
		FileWriter knnRightWriter = new FileWriter(new File(knnRightFile));
		BufferedReader fileBR = new BufferedReader(fileR);
		String line;
		String lineBlock[];
		while((line = fileBR.readLine()) != null){
			
			lineBlock = line.split(" ");
			rightCate = lineBlock[0].split("_")[0];
			knnRightWriter.append(lineBlock[0]+" "+rightCate+"\n");
		}
		knnRightWriter.flush();
		fileBR.close();
		knnRightWriter.close();
	}
	
	
	public static void main(String[] args) throws Exception {
	
		//wordMap是所有屬性詞的詞典<單詞，在所有文件中出現的次數>
		double[] accuracyOfEveryExp = new double[10];
		double accuracyAvg,sum=0;
		KNNClassifier knnClassifier = new KNNClassifier();
		NaiveBayesianClassifier nbClassifier = new NaiveBayesianClassifier();
		Map<String,Double> wordMap = new TreeMap<String, Double>();
		Map<String,Double> IDFPerWordMap = new TreeMap<String, Double>();
		ComputeWordsVector computeWV = new ComputeWordsVector();
		
		wordMap = computeWV.countWords("E:\\DataMiningSample\\processedSample", wordMap);
		IDFPerWordMap = computeWV.computeIDF("E:\\DataMiningSample\\processedSampleOnlySpecial", wordMap);
		//IDFPerWordMap=null;
		computeWV.printWordMap(wordMap);
		
		// 首先生成KNN演算法10次試驗需要的文件TF矩陣檔案
		for (int i = 0; i < 1; i++) {
			
			computeWV.computeTFMultiIDF("E:/DataMiningSample/processedSampleOnlySpecial", 0.9, i, IDFPerWordMap, wordMap);
			
			String trainFiles = "E:\\DataMiningSample\\docVector\\wordTFIDFMapTrainSample"+i;
			String testFiles = "E:/DataMiningSample/docVector/wordTFIDFMapTestSample"+i;
			
			String knnResultFile = "E:/DataMiningSample/docVector/KNNClassifyResult"+i;
			String knnRightFile = "E:/DataMiningSample/docVector/KNNClassifyRight"+i;
			
			knnClassifier.doProcess(trainFiles,testFiles,knnResultFile);
			knnClassifier.createRightFile(knnResultFile,knnRightFile);
			
			//計算準確率和混淆矩陣使用樸素貝葉斯中的方法
			accuracyOfEveryExp[i] = nbClassifier.computeAccuracy(knnRightFile, knnResultFile);
			sum += accuracyOfEveryExp[i];
			System.out.println("The accuracy for KNN Classifier in "+i+"th Exp is :" + accuracyOfEveryExp[i]);
		}
		//accuracyAvg = sum / 10;
		//System.out.println("The average accuracy for KNN Classifier in all Exps is :" + accuracyAvg);
	}
	
	//對hashMap按照value做排序 降序
	static class ByValueComparator implements Comparator<Object>{

		HashMap<String,Double> base_map;
		
		public ByValueComparator(HashMap<String,Double> disMap) {
			this.base_map = disMap;
		}
		
		@Override
		public int compare(Object o1, Object o2) {
			
			String arg0 = o1.toString();
			String arg1 = o2.toString();
			if(!base_map.containsKey(arg0) || !base_map.containsKey(arg1)){
				return 0;
			}
			if(base_map.get(arg0) < base_map.get(arg1))
				return 1;
			else if(base_map.get(arg0) == base_map.get(arg1))
				return 0;
			else
				return -1;
		}
		
	}
	
}

3、KNN分類結果

這裡只列出一個結果

文字分類——KNN演算法

上一篇文章已經描述了樸素貝葉斯演算法newgroup的分類實現，這篇文章採用KNN演算法實現newgroup的分類。文中程式碼參考：http://blog.csdn.net/yangliuy/article/details/7401142 1、KNN演算法描述對於KNN

2.最鄰近規則分類KNN演算法

1.綜述 2.例子未知的電影屬於什麼類別呢？ 3.演算法描述 3.3計算上述例子假設K為3，則選取最近的三個點，其中這三個點都是Romance則把未知電影歸類為Romance. 4.演算法的優缺點 5.考慮改進考慮權重，根據距離加上

文字分類——NLV演算法研究與實現

內容提要 1 引言 2 NLV演算法理論 2.1 訓練模型 2.2 分類模型 3 NLV演算法實現 3.1 演算法描述 4 實驗及效能評估 4.1 實驗設計 4

文字分類的演算法總結

本文對文字分類中的常用演算法進行了小結，比較它們之間的優劣，為演算法的選擇提供依據。一、決策樹（Decision Trees）優點： 1、決策樹易於理解和解釋.人們在通過解釋後都有能力去理解決策樹所表達的意義。 2、對於決策樹，資料的準備往往是

機器學習之K-最近鄰規則分類(KNN)演算法

準備分為兩個部分，一個是理論，一個就是程式碼實現。程式碼也可以在我的GitHub上下載，後面有連結。一、理論知識相信我的筆記還是比較詳細的二、程式碼實現KNN演算法 1. 首先要生成一些資料集，以供訓練和測試我造的資料是關於通過身高

文字分類演算法之--KNN演算法的簡介

1、KNN演算法的簡介 kNN演算法就是找到k個最相似的樣本，這些樣本所在的類，就是當前文件的所屬的類。如下圖：綠色圓圈表示你想分類的文字，其他是已知類別的樣本。圖中其他形狀和綠色圓圈的距離代表了相似

基於協同訓練的半監督文字分類演算法

標籤：半監督學習，文字分類作者：煉己者 --- 本部落格所有內容以學習、研究和分享為主，如需轉載，請聯絡本人，標明作者和出處，並且是非商業用途，謝謝！如果大家覺得格式看著不舒服，也歡迎大家去看我的簡書半監督學習文字分類系列用半監督演算法做文字分類(sklearn) sklearn半監督學習(

文字分類——快速kNN設計實現

內容提要介紹普通kNN實現快速kNN實現實驗對比分析總結介紹文字分類——常見分類模型 kNN分類模型的主要思想：通過給定一個未標註文件d，分類系統在訓練集中查詢與它距離最接近的k篇相鄰(相似或相同)標註

文字分類——演算法效能評估

內容提要資料集英文語料中文語料評估指標召回率與準確率 F1-評測值微平均與巨集平均混淆矩陣優秀的文字分類模型必須經得住真實資料集的驗證，因而分類器

基於機器學習的文字分類演算法的研究

1. 簡述文字分類的方法屬於有監督的學習方法，分類過程包括文字預處理、特徵抽取、降維、分類和模型評價。本文首先研究了文字分類的背景，中文分詞演算法。然後是對各種各樣的特徵抽取進行研究，包括詞項頻率-逆文件頻率和word2vec，降維方法有主成分分析法和潛在索引分析，最後是對分類演算法進行研究，

KNN演算法實現影象分類

首先，回顧k-Nearest Neighbor（k-NN）分類器，可以說是最簡單易懂的機器學習演算法。實際上，k-NN非常簡單，根本不會執行任何“學習”，以及介紹k-NN分類器的工作原理。然後，我們將k-NN應用於Kaggle Dogs vs. Cats資料集，這是Microsoft的A

KNN演算法鳶尾花分類

1.Sklearn篇 # load_iris是機器學習庫自帶研究演算法的資料鳶尾花 from sklearn.datasets import load_iris # 獲取訓練資料 iris=load_iris() # iris # 獲取資料 data=iris.dat

用KNN演算法分類CIFAR-10圖片資料

KNN分類CIFAR-10，並且做Cross Validation，CIDAR-10資料庫資料如下： knn.py : 主要的試驗流程 from cs231n.data_utils import load_CIFAR10 from cs231n.classifiers i

機器學習筆記（3）——使用聚類分析演算法對文字分類（分類數k未知）

聚類分析是一種無監督機器學習（訓練樣本的標記資訊是未知的）演算法，它的目標是將相似的物件歸到同一個簇中，將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類，關鍵要解決這幾個問題：如何衡量兩個物件是否相似演算法的效能怎麼度量如何確定分類的個數或聚類

資料分析：分類問題和預測--KNN演算法

資料型別可以有：數字，分類變數，二進位制，email，微博，使用者資料，json，地理位置，感測器資料等。資料定量或者定性的屬性值，比如身高，體重，年齡，性別，學科成績等。演算法簡介：分類（classification）：給定一些屬性標籤，預測它們的一些屬性。比如給定

基於深度學習的文字分類6大演算法-原理、結構、論文、原始碼打包分享

導讀：文字分類是NLP領域一項基礎工作，在工業界擁有大量且豐富的應用場景。傳統的文字分類需要依賴很多詞法、句法相關的human-extracted feature，自2012年深度學習技術快速發展之後，尤其是迴圈神經網路RNN、卷積神經網路CNN在NLP領域逐漸獲得廣

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

NLP --- 文字分類(基於LDA的隱語意分析訓練演算法詳解)

上一節詳細介紹了什麼是LDA，詳細講解了他的原理，大家應該好好理解，如果不理解，這一節就別看了，你是看不懂的，這裡我在簡單的敘述LDA的演算法思想：首先我們只擁有很多篇文字和一個詞典，那麼我們就可以在此基礎上建立基於基於文字和詞向量聯合概率（也可以理解為基於文字和詞向量的矩陣，大家暫且這樣

4.1 最鄰近規則分類（K-Nearest Neighbor）KNN演算法

1968年提出的分類演算法輸入基於示例的學習（instance-based learning），懶惰學習（lazy learning）例子：演算法詳述步驟：為了判斷未知例項類別，用所有已知類別的例項作為參照選擇引數k 計算未知例項與所有已知例項的距離選擇

樸素貝葉斯分類演算法理解及文字分類器實現

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本文作為分類演算法的第一篇，將首先介紹分類問題，對分類問題進行一個正式的定義。然後，介紹貝葉斯分類演算法的基礎——貝葉斯定理。最後，通過例項討論貝葉斯分類中最簡單的一種：樸素貝葉斯分類。

文字分類——KNN演算法

1、KNN演算法描述

2、KNN演算法實現

3、KNN分類結果

相關推薦