TF-IDF + K-Means 中文聚類例子 - scala

阿新 • • 發佈：2018-11-21

Demo僅供參考

使用spark1.6


import java.io.{BufferedReader, InputStreamReader}
import java.util.Arrays

import org.ansj.splitWord.analysis.ToAnalysis
import org.apache.hadoop.fs.FSDataInputStream
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.{SparseVector, Vectors}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.storage.StorageLevel

import scala.collection.mutable.ArrayBuffer
/**
  * Created by Zsh on 1/22 0022.
  */
object tfid {

  def main(args: Array[String]): Unit = {
   
    val conf = new
        SparkConf().setAppName("TF-IDF Clustering")
      .setMaster("yarn-client")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    import sqlContext.implicits._
    //    val sentenceData = sqlContext.createDataFrame(Seq(
    //      (1, tokenizer2("利用特徵向量和標籤產生一個預測模型。 MLlib使用Pipeline代表這個工作流")),
    //      (2, tokenizer2("這些變化發生在ML包裡面。MLlib模組下現在有兩個包：MLlib和ML。ML把整個機器學")),
    //      (3, tokenizer2("Mahout是hadoop的一個機器學習庫，主要的程式設計模型是MapReduce;Spark ML則是基於Spark的機器學習，Spark自身擁有MLlib作為機器學習庫。")),
    //        (3, tokenizer2("日本東京電視臺的人氣綜藝節目《開運鑑定團》主要對古董進行鑑定不過偶爾也會發生失誤的狀況節目開播以來最重大的發現日前他們在節目裡鑑定")),
    //          (3, tokenizer2("對許多人來說，看著老爸老媽現在的樣子，大概很難想象他們曾經也是青春靚麗，甚至顏值驚人。然而，誰沒年輕過呢？對於這個話題，最近又有不"))
    //    )).toDF("label", "sentence")

    val rawTrainingData = sc.textFile("/wcc.txt")
    val dataFrame = rawTrainingData.map(x=>{(0,tokenizer2(x))})
      .persist(StorageLevel.MEMORY_AND_DISK).toDF("label", "sentence")
    //        val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
    //        val wordsData = tokenizer.transform(sentenceData)
    //    println(wordsData.select("words"))
    //        wordsData.show(false)

    //    val frame = sentenceData.map(x=>{(x.getAs("label"),x.getAs("sentence"))}).toDF("label", "sentence")
    //    val str = tokenizer2("老師都快放假啊李開復啊可是對方")
    val numClusters = 10  //聚類數
    val numIterations = 30
    val runTimes = 3
    var clusterIndex: Int = 0


    val hashingTF = new HashingTF()
      . setInputCol("sentence").setOutputCol("rawFeatures").setNumFeatures(100000)
    val featurizedData = hashingTF.transform(dataFrame)
    featurizedData.show(false)
    println(featurizedData.count())
    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
    val idfModel = idf.fit(featurizedData)
    val rescaledData  = idfModel.transform(featurizedData)
    println(rescaledData)
    rescaledData.select("features","label").show(false)
    //    val value = rescaledData.select("features", "label","sentence")
    //      //      .map(_.get(0))
    //      .map(x => {
    //      val vector = x.get(0).asInstanceOf[org.apache.spark.mllib.linalg.Vector]
    //      (vector,x.get(2))
    //    })
    val value = rescaledData.select("features", "label","sentence")
      .map{
        case Row(features:org.apache.spark.mllib.linalg.Vector,label:Int,sentence)=>
          (features,sentence)
      }


  //訓練
    val clusters: KMeansModel =
      KMeans.train(value.map(_._1), numClusters, numIterations, runTimes)

    println("Cluster Number:" + clusters.clusterCenters.length)
    println("Cluster Centers Information Overview:")
    clusters.clusterCenters.foreach(
      x => {
        println("聚類質心點向量：" + clusterIndex + ":")
        println(x)
        clusterIndex += 1
      })


    // 輸出本次聚類操作的收斂性，此值越低越好
    val kMeansCost = clusters.computeCost(value.map(_._1))
    println("K-Means Cost: " + kMeansCost)
    //begin to check which cluster each test data belongs to based on the clustering result
    // 輸出每組資料及其所屬的子集索引
    value.map(x=>{
      //預測
      (clusters.predict(x._1)+":"+x._2.toString)
    }).saveAsTextFile("/0123")
  }
  def tokenizer2(line: String): Seq[String] = {
    val reg1 = "@\\w{2,20}:".r
    val reg2 = "http://[0-9a-zA-Z/\\?&#% 
[email protected]\\=\\\\]+".r
    //    println("stopwordSet,stopwordSet:"+stopwordSet.size)
    AnsjSegment(line)
      .split(",")
      .filter(_!=null)
      .filter(token => !reg1.pattern.matcher(token).matches)
      .filter(token => !reg2.pattern.matcher(token).matches)
      .filter(token => !stopwordSet.contains(token))
      .toSeq
  }
  def AnsjSegment(line: String): String={
    val StopNatures="""w","",null,"s", "f", "b", "z", "r", "q", "d", "p", "c", "uj", "ul","en", "y", "o", "h", "k", "x"""
    val KeepNatures=List("n","v","a","m","t")
    val StopWords=Arrays.asList("的", "是","了")  //Arrays.asList(stopwordlist.toString())
    //val filter = new FilterRecognition()
    //加入停用詞
    //filter.insertStopWords(StopWords)
    //加入停用詞性
    //filter.insertStopNatures(StopNatures)
    //filter.insertStopRegex("小.*?")
    //此步驟將會只取分詞，不附帶詞性
    //for (i <- Range(0, filter1.size())) {
    //word += words.get(i).getName
    //}
    val words = ToAnalysis.parse(line)
    val word = ArrayBuffer[String]()
    for (i <- Range(0,words.size())) { //KeepNatures.contains(words.get(i).getNatureStr.substring(0,1))&&
      if(KeepNatures.contains(words.get(i).getNatureStr.substring(0,1))&&words.get(i).getName.length()>=2)
        word += words.get(i).getName
    }
    word.mkString(",")
  }
  var stopwordSet: Set[String] = getStopFile()

  def getStopFile():Set[String]={
    //叢集請跑下面的路徑
    var inputStream: FSDataInputStream = null
    var bufferedReader: BufferedReader = null
    val stopword = ArrayBuffer[String]()
    try {
      //獲取到HDFS的輸入流，可以參考上一篇文件
      val stopWordsCn=ConfigurationManager.getProperty(Constants.STOP_WORDS_CN)
      inputStream = HDFSUtil.getFSDataInputStream(stopWordsCn)
      //轉成緩衝流
      bufferedReader = new BufferedReader(new InputStreamReader(inputStream))
      //一次讀取一行
      var lineTxt: String = bufferedReader.readLine()
      while (lineTxt != null) {
        //      println("lineTxt:"+lineTxt)
        stopword +=lineTxt
        lineTxt = bufferedReader.readLine()
      }
      stopwordSet = stopword.toSet
    }catch{
      case e: Exception => e.printStackTrace()
    }finally{
      if (bufferedReader != null) {
        bufferedReader.close()
      }
      if (inputStream != null) {
        HDFSUtil.close(inputStream)
      }
    }
    //println("結束詞語個數:"+stopwordSet.size)
    stopwordSet
  }
}

全部配置檔案-自行提取所需配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.izhonghong</groupId>
    <artifactId>mission-center-new</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>1.6</maven.compiler.source>
        <maven.compiler.target>1.6</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.tools.version>2.10</scala.tools.version>
        <scala.version>2.10.6</scala.version>
        <hbase.version>1.2.2</hbase.version>
    </properties>

    <dependencies>
       <!-- <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>-->
        <!--<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <version>1.6.0</version>
        </dependency>-->
       <!-- <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.0</version>
        </dependency>-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>1.6.0</version>
        </dependency>

        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.0.4</version>
        </dependency>


        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.10.6</version>
        </dependency>
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.10.0.0</version>
        </dependency>



        <dependency>
            <groupId>net.sf.json-lib</groupId>
            <classifier>jdk15</classifier>
            <artifactId>json-lib</artifactId>
            <version>2.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka_2.10</artifactId>
            <version>1.6.2</version>
        </dependency>

        <!-- <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.10</artifactId>
            <version>2.1.1</version> </dependency> -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.10</artifactId>
            <version>1.6.2</version>
            <exclusions>
                <exclusion>
                    <artifactId>scala-library</artifactId>
                    <groupId>org.scala-lang</groupId>
                </exclusion>
            </exclusions>
        </dependency>

        <!-- <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId>
            <version>2.1.1</version> <scope>provided</scope> </dependency> -->
        <dependency>
            <groupId>com.huaban</groupId>
            <artifactId>jieba-analysis</artifactId>
            <version>1.0.2</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.14</version>
        </dependency>


        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>2.9.0</version>
        </dependency>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-server</artifactId>
            <version>1.2.2</version>
            <exclusions>
                <exclusion>
                    <artifactId>servlet-api-2.5</artifactId>
                    <groupId>org.mortbay.jetty</groupId>
                </exclusion>
            </exclusions>
        </dependency>
      <!--  <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.18</version>
        </dependency>-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>1.6.2</version>
            <!-- <version>2.1.1</version> -->
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.0</version>
            <exclusions>
                <exclusion>
                    <groupId>javax.servlet.jsp</groupId>
                    <artifactId>*</artifactId>
                </exclusion>
                <exclusion>
                    <artifactId>servlet-api</artifactId>
                    <groupId>javax.servlet</groupId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.10</artifactId>
            <version>1.6.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.10</artifactId>
            <version>1.6.2</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.39</version>
        </dependency>
        <!--<dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-server</artifactId>
            <version>1.2.2</version>
        </dependency>-->

        <!-- Test -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.specs2</groupId>
            <artifactId>specs2_${scala.tools.version}</artifactId>
            <version>1.13</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.scalatest</groupId>
            <artifactId>scalatest_${scala.tools.version}</artifactId>
            <version>2.0.M6-SNAP8</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.0</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
                            <mainClass></mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-dependency-plugin</artifactId>
                <executions>
                    <execution>
                        <id>copy</id>
                        <phase>package</phase>
                        <goals>
                            <goal>copy-dependencies</goal>
                        </goals>
                        <configuration>
                            <outputDirectory>${project.build.directory}/lib</outputDirectory>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
    <!-- <build> <plugins> <plugin> <artifactId>maven-assembly-plugin</artifactId>
        <configuration> <archive> <manifest> 這裡要替換成jar包main方法所在類 <mainClass>com.sf.pps.client.IntfClientCall</mainClass>
        </manifest> <manifestEntries> <Class-Path>.</Class-Path> </manifestEntries>
        </archive> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef>
        </descriptorRefs> </configuration> <executions> <execution> <id>make-assembly</id>
        this is used for inheritance merges <phase>package</phase> 指定在打包節點執行jar包合併操作
        <goals> <goal>single</goal> </goals> </execution> </executions> </plugin>
        </plugins> </build> -->

</project>

TF-IDF + K-Means 中文聚類例子 - scala

Demo僅供參考使用spark1.6 import java.io.{BufferedReader, InputStreamReader} import java.util.Arrays import org.ansj.splitWord.analysis.ToAnaly

基於K-means Clustering聚類算法對電商商戶進行級別劃分(含Octave仿真)

fprintf highlight 初始 load ogre max init 金額定時在從事電商做頻道運營時，每到關鍵時間節點，大促前，季度末等等，我們要做的一件事情就是品牌池打分，更新所有店鋪的等級。例如，所以的商戶分入SKA,KA,普通店鋪,新店鋪這4個級別，對於

K-均值（K-means）聚類算法

簡單 read 原理包含 append 添加 url 學習 readlines 聚類是一種無監督的學習，它將相似的對象歸到同一個簇中。這篇文章介紹一種稱為K-均值的聚類算法，之所以稱為K-均值是因為它可以發現k個不同的簇，且每個簇的中心采用簇中所含值的均值計算而成。聚

全面了解R語言中的k-means如何聚類？

聚類下面將在iris數據集上演示k-means聚類的過程。先從iris數據集中移除Species屬性，然後再對數據集iris調用函數kmeans，並將聚類結果存儲在變kmeans.result中。在下面的代碼中，簇的數目設置為3。iris2 <- irisiris2$Species <- NULL

使用K-means演算法聚類灰度圖

github資料集: 智慧演算法的課件和參考資料以及實驗程式碼我們可以用k-means演算法將灰度圖分成N個梯度我們知道，一般的彩色影象指的是在RGB顏色空間下的影象，這樣的影象三個通道分別是R（red）G（green）B（blue）。而灰度圖指的是單通道的，將三通道的影象

K-means 影象聚類

import numpy as np import tensorflow as tf from tensorflow.contrib.factorization import KMeans # 本程式碼演示K均值的用法， tensorflow版本必須大於等於V1.1.0 #

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

之前也做過聚類，只不過是用經典資料集，這次是拿的實際資料跑的結果，效果還可以，記錄一下實驗過程。首先：確保自己資料集是否都完整，不能有空值，最好也不要出現為0的值，會影響聚類的效果。其次：想好要用什麼演算法去做，K-means，層次聚類還是基於密

K-means均值聚類演算法的原理與實現

轉自：http://blog.csdn.net/xiaolewennofollow/article/details/45541159 K-均值聚類演算法的原理與實現聚類是一種無監督的學習，它將相似的物件歸到同一個簇中，聚類方法幾乎可以應用於所有物件，簇內的物件越相似，聚類的效果越好，本文主要介紹K-均值聚

python_sklearn機器學習算法系列之K-Means(硬聚類演算法)

本文主要目的是通過一段及其簡單的小程式來快速學習python 中sklearn的K-Means這一函式的基本操作和使用，注意不是用python純粹從頭到尾自己構建K-Means，既然sklearn提供了現成的我們直接拿來用就可以了，當然K-Means原理還

非監督學習—K-means演算法聚類學習筆記

非監督學習：無類別標記的一、 K-means 演算法： 1. Clustering 中的經典演算法，資料探勘十大經典演算法之一 2. 引數k 已知引數 k ；然後將事先輸入的n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚

C++實現K-means，聚類原理解析（並用在圖片畫素點聚類）

最近用到影象中的點的聚類，於是就寫了一個k-means的類。驗證的過程是將一幅圖的所有點的(B, G, R)作為資料點，進行聚類。算出K箇中心類後，對影象中的每個點進行重新上色。按照類別給給每類生成一種隨機色彩。使用該類，可以自定義聚類中心K的個數、資料維度N的大

基於R語言的聚類分析（k-means,層次聚類）

今天給大家展示基於R語言的聚類，在此之前呢，首先談談聚類分析，以及常見的聚類模型，說起聚類我們都知道，就是按照一定的相似性度量方式，把接近的一些個體聚在一起。這裡主要是相似性度量，不同的資料型別，我們需要用不同的度量方式。除此之外，聚類的思想也很重要，要是按照聚

Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）

源資料（這裡僅展示10行）：程式：#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import numpy as np import pandas as pd #引數初始化 inputfile = '../data/consu

Python_sklearn機器學習庫學習筆記（五）k-means（聚類）

# K的選擇：肘部法則如果問題中沒有指定K的值，可以通過肘部法則這一技術來估計聚類數量。肘部法則會把不同K值的成本函式值畫出來。隨著K值的增大，平均畸變程度會減小；每個類包含的樣本數會減少，於是樣本離其重心會更近。但是，隨著K值繼續增大，平均畸變程度的改善效果會不斷減

K-means 和 K-medoids演算法聚類分析

1 聚類是對物理的或者抽象的物件集合分組的過程，聚類生成的組稱為簇，而簇是資料物件的集合。（1）簇內部的任意兩個物件之間具有較高的相似度。（2）屬於不同的簇的兩個物件間具有較高的相異度。 2 相異度可以根據描述物件的屬性值來計算，最常用的度

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

ML: 聚類算法R包-K中心點聚類

logs lib str ini rac 缺點 criterion spa mea K-medodis與K-means比較相似，但是K-medoids和K-means是有區別的，不一樣的地方在於中心點的選取，在K-means中，我們將中心點取為當前clust

k-medoid(k中心點)聚類演算法Python實現

k-means演算法有個很大的缺點，就是對孤立點敏感性太高，孤立點即是脫離群眾的點，與眾不同的點，即在顯示中與其他點不是抱在一團的點。為了體現兩者的不同，我特意溫習了一下知識，在構造初始點的時候，自己定義加入了幾個孤立點，使用k-means演算法跑的效果如下：一開始的所有點：（可以看出其

TF-IDF演算法抽取中文內容的主題關鍵詞

db.ini # db [db] db_port = 3306 db_user = user db_host = localhost db_pass = pwd db_database = db main.py # -*-coding:utf-8-

python機器學習案例系列教程——k均值聚類、k中心點聚類

上一篇我們學習了層次聚類。層次聚類只是迭代的把最相近的兩個聚類匹配起來。並沒有給出能給出多少的分組。今天我們來研究一個K均值聚類。就是給定分組數目的基礎上再來聚類。即將所有的樣本資料集分成K個組，每個組內儘可能相似，每個組間又儘可能不相似。 k均值聚類和k

TF-IDF + K-Means 中文聚類例子 - scala

Demo僅供參考

全部配置檔案-自行提取所需配置

相關推薦