Mahout文字聚類例項

阿新 • • 發佈：2019-01-08

1：下載路透社資料

2：提取文字內容

下載的檔案資料格式是SGML格式，這種格式和XML格式很類似。我們需要將這種格式的資料轉化為SequenceFile格式，首先就要提取出txt格式。使用的是Mahout中自帶的工具類：org.apache.lucene.benchmark.utils.ExtractReuters。編寫以下程式碼實現文字抽取：

import org.apache.lucene.benchmark.utils.ExtractReuters;

public class TestExtractReuters {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		File inputFolder = new File("/home/cdw/reuters");
		File outputFolder = new File("/home/cdw/extracted");
		ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
		extractor.extract();
	}

}

程式執行後extracted目錄下的檔案格式為reut2-***.sgm-*txt格式

3：將txt格式轉化為sequenceFile

執行命令如下：

mahout seqdirectory -c UTF-8 -i extracted/ -o reuters-seqfiles

可以用seqdumper檢視生成的內容

命令： mahout seqdumper -s reuters-seqfiles/chunk-0 -o txt.txt。生成的內容在txt.txt中。

4：將SequenceFile格式轉化為向量格式

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow

在HDFS中生成reuters-vectors目錄，該目錄下檔案結構如下：

df-count 目錄：儲存著文字的頻率資訊
tf-vectors 目錄：儲存著以 TF 作為權值的文字向量
tfidf-vectors 目錄：儲存著以 TFIDF 作為權值的文字向量
tokenized-documents 目錄：儲存著分詞過後的文字資訊
wordcount 目錄：儲存著全域性的詞彙出現的次數
dictionary.file-0 目錄：儲存著這些文字的詞彙表
frequcency-file-0 目錄 : 儲存著詞彙表對應的頻率資訊。

5：使用Canopy聚類為Kmeans聚類提供初始類

命令如下：

mahout canopy -i reuters-vectors/tfidf-vectors -o reuters-canopy-centroids -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -t1 1500 -t2 2000

在HDFS中生成reuters-canopy-centroids目錄
6：使用Kmeans聚類

命令如下：

mahout kmeans -i reuters-vectors/tfidf-vectors -o reuters-kmeans-clusters -dm org.apache.mahout.common.distance.TanimotoDistanceMeasure -c reuters-canopy-centroids/clusters-0 -cd 0.1 -ow -x 20 -cl
在HDFS中生成 reuters-kmeans-clusters目錄

7：使用ClusterDumper工具檢視聚類結果

命令如下：

mahout clusterdump -dt sequencefile -d reuters-vectors/dictionary.file-* -s reuters-kmeans-clusters-14 -b 10 -n 10

Mahout文字聚類例項

Mahout文字聚類例項

利用LDA進行文字聚類(hadoop, mahout)

Mahout canopy聚類

pyhanlp 文字聚類詳細介紹

R語言Kmeans聚類例項

使用scikit-learn進行KMeans文字聚類

異端審判器！一個泛用型文字聚類模型的實現（1）

LDA使用一文字聚類

文字聚類演算法介紹

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

sklearn之kmeans文字聚類主題輸出

PCA降維以及Kmeans聚類例項----python,sklearn,PCA,Kmeans

基於doc2vec的中文文字聚類及去重

基於 K-Means 演算法的文字聚類

Python基於Kmeans演算法實現文字聚類的簡單練習

[python] Kmeans文字聚類演算法+PAC降維+Matplotlib顯示聚類影象

文字聚類——Kmeans

譜聚類例項

鬼吹燈文字挖掘5：sklearn實現文字聚類和文字分類

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

Mahout文字聚類例項

相關推薦