機器學習實戰：K-均值及二分K-均值聚類演算法

阿新 • • 發佈：2019-02-15

# coding=utf-8
'''
Created on Feb 16, 2011
k Means Clustering for Ch10 of Machine Learning in Action
#@author: Peter Harrington
'''
from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    dataMat = []                #assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine)) #map all elements to float()
        dataMat.append(fltLine)
    return mat(dataMat)  #mat(list[])先變成矩陣型別後面才能進行[:,j] min ,max 等運算

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#create centroid mat
    for j in range(n):#create random cluster centers, within bounds of each dimension
        minJ = min(dataSet[:,j])
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids
    
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))#create mat to assign data points 
                                      #to a centroid, also holds SE of each point
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#for each data point assign it to the closest centroid
            minDist = inf; minIndex = -1
            for j in range(k):
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2
        print (centroids)
        for cent in range(k):#recalculate centroids
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster
            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean 
    return centroids, clusterAssment

def biKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] #create a list with one centroid
    for j in range(m):#calc initial Error
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print ("sseSplit, and notSplit: ",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print ('the bestCentToSplit is: ',bestCentToSplit)
        print ('the len of bestClustAss is: ', len(bestClustAss))
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids 
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE
    return mat(centList), clusterAssment

datMat=loadDataSet(r'C:\Users\li\Downloads\machinelearninginaction\Ch10\testSet2.txt')
#myCentroids,clustAssing=kMeans(datMat, 4)
myCentroids,clustAssing=biKmeans(datMat, 3)
print(myCentroids)

機器學習實戰ByMatlab（四）二分K-means演算法

前面我們在是實現K-means演算法的時候，提到了它本身存在的缺陷： 1.可能收斂到區域性最小值 2.在大規模資料集上收斂較慢對於上一篇博文最後說的，當陷入區域性最小值的時候，處理方法就是多執行幾次K-means演算法，然後選擇畸變函式J

機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼

機器學習之混合高斯模型聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：

機器學習實戰：K-均值及二分K-均值聚類演算法

# coding=utf-8 ''' Created on Feb 16, 2011 k Means Clustering for Ch10 of Machine Learning in Action #@author: Peter Harrington ''' from

機器學習實戰：K近鄰演算法--學習筆記

一、KNN的工作原理假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。 1）計算新資料與樣本資料集中每條資料的距離。 2）對求得的所有距離進

《機器學習實戰》筆記之十——利用K均值聚類演算法對未標註資料分組

第十章利用K均值聚類演算法對未標註資料分組 10.1 K-均值聚類演算法 K-均值是發現給定資料集的k個簇的演算法，每個簇通過其質心來描述。其優點為容易實現，但可能收斂到區域性最小值，在大規模資料集上收斂較慢。隨機確定k個初始點為質心，為每個點找距其最近的質心，並將

機器學習實戰：k-臨近演算法（二）

海倫一直在使用線上約會網站尋找合適自己的約會物件，經過一番總結，海倫整理了以下資料，希望我們的分類軟體可以更好地幫助她將匹配物件劃分到確切的分類中 1、收集資料 40920 8.326976 0.953952 largeDoses 14488 7.153469 1.673

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼

下載：https://pan.baidu.com/s/1kNN4tDt58ckFoD_OWH5sGw 更多資料分享：http://blog.51cto.com/3215120 《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中文版PDF+高清英文版PDF+原始碼高清中文版PDF

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+源代碼

ESS alt mark 構建 image 機器學習實戰 dff com 化學下載：https://pan.baidu.com/s/1kNN4tDt58ckFoD_OWH5sGw 更多資料分享：http://blog.51cto.com/3215120 《機器學習實戰：基

機器學習實戰：智慧製造質量預測

一、資料清洗注意：pandas函式使用後一般是不對原表起作用的，要重新賦值對dataframe來說，bool運算any()、all()，預設沿axis=0反向，即沿著列初步清洗後從8209列到3074列 1.初步清洗去除重複列，注意可能會跨幾十列重合的，需要遍歷同一個工序

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》+PDF+Aurelien

ext https oss 模型 img kit 復制 mage 更多下載：https://pan.baidu.com/s/127EzxtY9zdBU2vOfxEgIjQ 更多資料分享：http://blog.51cto.com/14087171 《機器學習實戰：基於Sc

機器學習實戰：用nodejs實現人臉識別

機器學習實戰：用nodejs實現人臉識別在本文中，我將向你展示如何使用face-recognition.js執行可靠的人臉檢測和識別。我曾經試圖找一個能夠精確識別人臉的Node.js庫，但是

機器學習入門：概念原理及常用演算法

機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使

機器學習實戰：支撐向量機

一、工作原理支撐向量機（Support Vector Machine）的核心問題為：針對不同類別進行分類時，如何尋找得到最大的分類間距通常採用超平面來對不同類別的資料進行分割，超平面方程為: wT X+b =0 支撐向量機的實現方法為：求取超平面方程

機器學習實戰：logistic迴歸--學習筆記

一、工作原理 1.每個迴歸係數初始化為 1 2.重複 R 次: 1. 計算整個資料集的梯度 2. 使用步長 x 梯度更新迴歸係數的向量 5.返回迴歸係數二、實現程式碼 1.基於梯度上升尋找邏輯迴歸引數

機器學習實戰：樸素貝葉斯--學習筆記

一、工作原理我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率，用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率; 那麼對於一個新資料點 (x,y)，可以用下面的規則來判斷它的類別：如果 p1(x,y)

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼免費

下載：https://pan.baidu.com/s/191hQMWZYGhXtqZxbfqTDtw 《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中文版PDF+高清英文版PDF+原始碼免費下載高清中文版PDF，649頁，帶目錄和書籤，文字能夠複製貼上；高清英文版PDF

機器學習入門：線性迴歸及梯度下降（附matlab程式碼）

本文會講到： (1)線性迴歸的定義 (2)單變數線性迴歸 (3)cost function：評價線性迴歸是否擬合訓練集的方法 (4)梯度下降：解決線性迴歸的方法之一 (5)feature scaling：加快梯度下降執行速度的方法 (6)多變數線性迴歸 Linea

機器學習實戰：決策樹-隱形眼鏡型別

程式碼及資料地址輸出結果 model: {‘tearRate’: {‘reduced’: ‘no lenses’, ‘normal’: {‘astigmatic’: {‘yes’: {‘prescript’: {‘hyper’: {‘age’: {‘presbyopic

機器學習實戰：決策樹-是否有魚

程式碼及資料地址輸出結果 model: {‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}} predict: [1, 1] yes 程式碼 """ @

機器學習實戰：knn手寫數字

資料及程式碼github。 """ @author: lishihang @software: PyCharm @file: handwritten.py @time: 2018/11/26 16:18 """ import numpy as np import m

機器學習實戰：K-均值及二分K-均值聚類演算法

相關推薦