Spark下的KMeans演算法

阿新 • • 發佈：2019-01-31

import breeze.linalg.{DenseVector, squaredDistance}
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by fhqplzj on 16-7-16 at 下午12:21.
  */
object SimpleKMeans {
  def main(args: Array[String]): Unit = {
    if (args.length < 3) {
      System.err.println("Usage: SimpleKMeans <file> <k> <convergeDist>")
      System.exit(1)
    }
    val conf = new SparkConf().setMaster("local[*]").setAppName("SimpleKMeans")
    val sc = new SparkContext(conf)
    val data = sc.textFile(args(0)).map(_.split("\\s+").map(_.toDouble)).map(DenseVector(_)).cache()
    val k = args(1).toInt
    val convergeDist = args(2).toDouble
    val kPoints = data.takeSample(false, k, System.nanoTime())
    var tempDist = Double.PositiveInfinity
    while (tempDist > convergeDist) {
      val newPoints = data.map {
        p =>
          val minIdx = kPoints.map(squaredDistance(_, p)).zipWithIndex.minBy(_._1)._2
          (minIdx, (p, 1))
      }.reduceByKey {
        case (x, y) =>
          (x._1 + y._1, x._2 + y._2)
      }.mapValues(x => x._1 /= x._2.toDouble).collect()
      tempDist = newPoints.map {
        case (idx, dv) =>
          squaredDistance(kPoints(idx), dv)
      }.sum
      newPoints.foreach {
        case (idx, dv) =>
          kPoints(idx) = dv
      }
    }
    println("Final centers:")
    kPoints.foreach(println)
  }
}

Spark下的KMeans演算法

import breeze.linalg.{DenseVector, squaredDistance} import org.apache.spark.{SparkContext, SparkConf} /** * Created by fhqplzj on 16-7

基於Spark MLlib 在IDEA環境實現Kmeans 演算法

import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.clustering.{KMeans, KMeansModel} import org.apache.spark.mllib.linalg.Ve

hadoop下實現kmeans演算法——一個mapreduce的實現方法

寫mapreduce程式實現kmeans演算法，我們的思路可能是這樣的 1. 用一個全域性變數存放上一次迭代後的質心 2. map裡，計算每個質心與樣本之間的距離，得到與樣本距離最短的質心，以這個質心作為key，樣本作為value，輸出 3. reduce裡，輸入的key是

spark利用MLlib實現kmeans演算法例項

spark版本 1.3.1 scala系統環境2.10.4 程式編譯版本2.11.8 需要注意的是，訓練資料和待測試資料都要是浮點型的，如果是int型的資料的話會報錯 package Kmeans import org.apache.spark.mllib.clust

kmeans演算法詳解與spark實戰

1.標準kmeans演算法 kmeans演算法是實際中最常用的聚類演算法，沒有之一。kmeans演算法的原理簡單，實現起來不是很複雜，實際中使用的效果一般也不錯，所以深受廣大人民群眾的喜愛。 kmeans演算法的原理介紹方面的paper多如牛毛，而且理解起來

基於spark的kmeans算法

temp 1.0 top spl nts 當前 int take 初始 from __future__ import print_function import sys import numpy as np from pyspark.sql import

吳恩達機器學習（第十四章）---無監督學習kmeans演算法

一、kmeans演算法 Kmeans演算法的流程： 1.根據我們要分的類別數，就是你要將資料分成幾類（k類），隨機初始化k個點（暫且稱為類別點） 2.計算每個資料點到k個類別點的距離，將其歸類到距離最近的那個類別點 3.計算每一類中包含的資料點的位置的平均值，比如，包含a(x1，y1

python Kmeans演算法解析

一. 概述首先需要先介紹一下無監督學習，所謂無監督學習，就是訓練樣本中的標記資訊是位置的，目標是通過對無標記訓練樣本的學習來揭示資料的內在性質以及規律。通俗得說，就是根據資料的一些內在性質，找出其內在的規律。而這一類演算法，應用最為廣泛的就是“聚類”。聚類演算法可以對資料進行資料歸約，即在儘可能保證資

0037-OpenCV環境下用演算法moravec、harris、Shi-Tomasi進行角點檢測

角點的定義： “如果某一點在任意方向的一個微小變動都會引起灰度很大的變化，那麼我們就把它稱之為角點”。角點一般反應的是影象中區域性最大值或最小值的孤立點，以角點為中心點的視窗向影象中的任意方向滑動，都會引起較大的灰度變化。角點檢測(Corner Detection)是計算機視覺系統中用來獲得影象特

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

使用Spark mlib Kmean演算法分析網路資料(Hacker attack)

package apache.spark.mlib.rdd.kmeanclustering import org.apache.spark.ml.clustering.KMeans import org.apache.spark.ml.feature.{StandardSca

KNN在MR和Spark下實現的IO操作比較

MapReduce中KNN執行過程I/O操作分析：實現流程： KNN在MapReduce中的實現，認為訓練集大小遠大於測試集大小。所以測試集快取在記憶體中。 Map任務輸入是一個訓練集檔案的分片（子集），測試集中的每一個樣例與訓練集分片中的所有樣例計算距離，輸出<測試樣例，（與

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

Spark隨機森林演算法實踐

例子1 object RunRF { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName(

windows下Xgboost演算法包的安裝

以前在安裝xgb演算法包時，看了網上很多篇教程都沒有成功，但最後還是找到了解決方法，恰好最近在整理筆記就與大家分享一下：通過Ctrl+F後輸入xgboost回車就可以到達xgboost所在的目錄。根據自己的電腦系統選擇對應的安裝包，我的電腦安裝的是anaconda

Spark 下操作 HBase（1.0.0 新 API）

HBase經過七年發展，終於在今年2月底，釋出了 1.0.0 版本。這個版本提供了一些讓人激動的功能，並且，在不犧牲穩定性的前提下，引入了新的API。雖然 1.0.0 相容舊版本的 API，不過還是應該儘早地來熟悉下新版API。並且瞭解下如何與當下正紅的 Spark 結合，進

基於PySpark的網路服務異常檢測系統 (四) Mysql與SparkSQL對接同步資料 kmeans演算法計算預測異常

def get_current_timestamp(): 2 """ 3 獲取當前時間戳 4 :return: 5 """ 6 return int(time.time()) * 1000 7 8 9 def convert_datetime_to_

《機器學習實戰》二分-kMeans演算法（二分K均值聚類）

首先二分-K均值是為了解決k-均值的使用者自定義輸入簇值k所延伸出來的自己判斷k數目，其基本思路是：為了得到k個簇，將所有點的集合分裂成兩個簇，從這些簇中選取一個繼續分裂，如此下去，直到產生k個簇。虛擬碼：初始化簇表，使之包含由所有的點組成的簇。 repeat &n

最新美團點評Java團隊面試題：Spark+JDK ZGC+演算法+HashMap+Redis

技術面（一、二、三面） Java 有什麼鎖型別? 有了解Spark嗎？Spark為什麼比Hadoop要快？談談poll和epoll，epoll是同步還是非同步 JMM、老年代在什麼情況下會觸發GC、對老年代的GC會不會導致程式卡頓？（最優吞吐量和最短停頓時間）

Spark下FP-Growth

一旦建立了FP樹之後就可以不斷遞迴挖掘K頻繁項集，對於Hadoop就會產生多次IO操作，嚴重影響程式執行效率，而Spark這種彈性式記憶體計算框架可以將中間輸出和結果儲存在記憶體中，不需要重複讀寫HDFS，所以Spark能更好地適用於資料探勘需要遞迴的Map-Reduce演算法。 Spark下F

Spark下的KMeans演算法

相關推薦