基於spark的kmeans算法

阿新 • • 發佈：2018-10-30

temp 1.0 top spl nts 當前 int take 初始

from __future__ import print_function

import sys

import numpy as np
from pyspark.sql import SparkSession


def parseVector(line):
    return np.array([float(x) for x in line.split(‘ ‘)])


def closestPoint(p, centers):
    bestIndex = 0
    closest = float("+inf")
    for i in range(len(centers)):
        tempDist  
= np.sum((p - centers[i]) ** 2)
        if tempDist < closest:
            closest = tempDist
            bestIndex = i
    return bestIndex


if __name__ == "__main__":

    if len(sys.argv) != 4:
        print("Usage: kmeans <file> <k> <convergeDist>", file=sys.stderr)
        sys.exit( 
-1)

    spark = SparkSession        .builder        .appName("PythonKMeans")        .getOrCreate()

    lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
    data = lines.map(parseVector).cache()
    //聚類超參數K
    K = int(sys.argv[2]) 
    //收斂閾值
    convergeDist = float(sys.argv[3])
    //初始化K個中心點
    kPoints  
= data.takeSample(False, K, 1)
    tempDist = 1.0

    while tempDist > convergeDist:
        // map Key: 聚類中心點  Value: （當前點， 數量1）
        closest = data.map(
            lambda p: (closestPoint(p, kPoints), (p, 1)))
        // reduce Key：聚類中心點， 計算每個聚類中心點下的分布
        pointStats = closest.reduceByKey(
            lambda p1_c1, p2_c2: (p1_c1[0] + p2_c2[0], p1_c1[1] + p2_c2[1]))
        //map 計算新的中心點
        newPoints = pointStats.map(
            lambda st: (st[0], st[1][0] / st[1][1])).collect()

        tempDist = sum(np.sum((kPoints[iK] - p) ** 2) for (iK, p) in newPoints)

        for (iK, p) in newPoints:
            kPoints[iK] = p

    print("Final centers: " + str(kPoints))

spark.stop()

基於spark的kmeans算法

Python 基於KNN算法的手寫識別系統

res eight mon -s 利用 filename setsize http 需要本文主要利用k-近鄰分類器實現手寫識別系統，訓練數據集大約2000個樣本，每個數字大約有200個樣本，每個樣本保存在一個txt文件中，手寫體圖像本身是32X32的二值圖像，如下圖所示：

基於AdaBoost算法——世紀晟結合Haar-like特征訓練人臉檢測識別

st算法技術分享測速循環 family sca 假設弱分類器 ada AdaBoost?算法是一種快速人臉檢測算法，它將根據弱學習的反饋，適應性地調整假設的錯誤率，使在效率不降低的情況下，檢測正確率得到了很大的提高。系統在技術上的三個貢獻： 1.用簡單的H

基於開源算法實現圖片比對進行圖片全圖和局部比對

== transform col reads img 希望 object 兩個最新需要最新源碼，或技術提問，請加QQ群：538327407，由於源碼在不斷完善，會在之後同步到AI開源項目中一、需求需要針對藝術品局部和全圖進行相識度比對，從而識別圖片的真

基於遺傳算法的Ostu法在圖像分割中的應用

編碼分離所有遊走 oss 兩個 port sel cross 像素關系相鄰像素位於坐標(x,y)處的像素P有4個水平和垂直的相鄰像素，其坐標為： (x+1,y)，(x-1,y)，(x,y+1)，(x,y-1) 這組相鄰元素稱為P的4鄰域。用

數據結構與算法基於c語言篇

相互線性內存例子 c語言基於數據結構 align 四種學習數據結構與算法走向深藍之路第一章:數據結構與算法概念型數據結構:數據之間的相互關系,即是數據的組織形式. 基本組成:{ 數據:信息的載體數據元素:數據基本單位: } 其結構形式有四種: 1,集合結構

基於FPGA的均值濾波算法的實現

微信訂閱號 lin ip核灰度處理 ise mea view 調用訂閱　　前面實現了基於FPGA的彩色圖像轉灰度處理，減小了圖像的體積，但是其中還是存在許多噪聲，會影響圖像的邊緣檢測，所以這一篇就要消除這些噪聲，基於灰度圖像進行圖像的濾波處理，為圖像的邊緣檢測做好夯實

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

基於K-means Clustering聚類算法對電商商戶進行級別劃分(含Octave仿真)

fprintf highlight 初始 load ogre max init 金額定時在從事電商做頻道運營時，每到關鍵時間節點，大促前，季度末等等，我們要做的一件事情就是品牌池打分，更新所有店鋪的等級。例如，所以的商戶分入SKA,KA,普通店鋪,新店鋪這4個級別，對於

基於鄰域的推薦算法

width contain sed span odi def -m 用戶組復雜基於鄰域的算法，就是最常見的CF協同過濾算法。分為基於用戶的 user based CF 和基於物品的 item based CF. 1.user based CF 對目標用戶u, 找出與

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

基於FPGA的RGB565_YCbCr_Gray算法實現

代碼 pro 三元組方便新的算法實現成功配置微博前面我們講了基於FPGA用VGA顯示一副靜態圖片，那麽接下來我們就接著前面的工程來實現我們圖像處理的基礎算法裏最簡單的一個那就是彩色圖像轉灰度的實現。將彩色圖像轉化為灰度的方法有兩種，一個是令

基於FPGA的均值濾波算法實現

思考 verilog spl 留下定義 bsp 趨勢 tps profile 　　我們為了實現動態圖像的濾波算法，用串口發送圖像數據到FPGA開發板，經FPGA進行圖像處理算法後，動態顯示到VGA顯示屏上，前面我們把硬件平臺已經搭建完成了，後面我們將利用這個硬件基礎平臺上

基於RNGCryptoServiceProvider的洗牌算法

sta tel graph blog ring 生成 i++ index read 將1到100這個100個自然數, 隨機放入一個長度為100的int數組中, 並且不能重復: class Program { static void Main

基於FPGA的腐蝕膨脹算法實現

靜態 art 數字 pan home 接收 blog 個人沒有本篇文章我要寫的是基於的腐蝕膨脹算法實現，腐蝕膨脹是形態學圖像處理的基礎，，腐蝕在二值圖像的基礎上做“收縮”或“細化”操作，膨脹在二值圖像的基礎上做“加長”或“變粗”的操作。那麽什麽是二值圖

15 圖-圖的遍歷-基於鄰接矩陣實現的BFS與DFS算法

namespace 可能鄰接矩陣 != pre 圖的遍歷 std amp 無法算法分析和具體步驟解說直接寫在代碼註釋上了 TvT 沒時間了等下還要去洗衣服就先不贅述了有不明白的歡迎留言交流！（估計是沒人看的了）直接上代碼： 1 #include<

基於dsp_builder的算法在FPGA上的實現

雙擊 arc cut 設置 img version 時序 blog tro 基於dsp_builder的算法在FPGA上的實現一、摘要　　結合dsp_builder、matlab、modelsim和quartus ii等軟件完成算法的FPGA實現。二、實驗

基於私鑰加密公鑰解密的RSA算法C#實現方法

第一個 inter tro 十進制函數軟件產生 ++ 原創本文實例講述了基於私鑰加密公鑰解密的RSA算法C#實現方法，是一種應用十分廣泛的算法。分享給大家供大家參考之用。具體方法如下：一、概述 RSA算法是第一個能同時用於加密和數字簽名的算法，也易於理解和操

Ex 5_22 在此我們基於以下性質給出一個新的最小生成樹算法..._第九次作業

遍歷算法刪除其中 ima 運行時間判斷技術分享不包含證明 (a)設環的頂點集為V, e(u,v)為權最重的邊，若把V分成兩部分V1,V2。其中V1包含u，V2包含v，因為V是一個環，因此，至少存在兩條把u和v連接起來的邊。因此，除了e之外，至少還存在另一條邊

[翻譯]基於詞典序的生成下一排列算法

更新很大的將在 assertion 通過描述機械排列 ext 翻譯來源https://www.nayuki.io/page/next-lexicographical-permutation-algorithm 簡介假設對於一個有限長度的數組序列(0, 3,

搜索引擎之全文搜索算法功能實現（基於Lucene）

lucene java 算法搜索引擎之前做去轉盤網的時候，我已經公開了非全文搜索的代碼，需要的朋友希望能夠前去閱讀我的博客。本文主要討論如何進行全文搜索，由於本人花了很長時間設計了新作：觀點，觀點對全文搜索的要求還是很高的，所以我又花了不少時間研究全文搜索，你可以先體驗下：點我搜索。廢話也

基於spark的kmeans算法

相關推薦