1. 程式人生 > >python利用K均值做聚類,判斷中國足球第幾流

python利用K均值做聚類,判斷中國足球第幾流

讀了部落格園的一篇 文章

受到啟發,寫了一個K均值的python實現,程式碼如下:

import random
from math import sqrt

sample=[
    [1,1,0.5],
    [0.3,0,0.19],
    [0,0.15,0.13],
    [0.24,0.76,0.25],
    [0.3,0.76,0.06],
    [1,1,0],
    [1,0.76,0.5],
    [1,0.76,0.5],
    [0.7,0.76,0.25],
    [1,1,0.5],
    [1,1,0.25],
    [1,1,0.5],
    [0.7,0.76,0.5],
    [0.7,0.68,0.5],
    [1,1,0.5]
]

samplename=['中國','日本','韓國','伊朗','沙特','伊拉克','卡達','阿聯酋','烏茲別克','泰國','越南','阿曼','巴林','朝鮮','印尼']

def EDistance(v1,v2):
    tmp=sum([pow(v1[i]-v2[i],2) for i in range(len(v1))])
    return sqrt(tmp)


class kcluster:
    k=3
    distance=mypearson
    rows=sample

    #獲取用於比較的序列的在各個維度上均值組成的序列
    def getavg(self,rows,seed):
        n=len(rows)
        if n==0:
            return seed
        rs=[]
        for i in range(len(rows[0])):
            rs.append(sum([row[i] for row in rows])/n)
        return rs

    #根據種子獲取與種子最接近的序列
    def getbestmatch(self,rows,seeds):
        bestmatch={}
        for i in range(self.k):
            bestmatch.setdefault(i,[])
        #判斷每個序列最匹配的種子
        for row in rows:
            d=9999
            whichseed=0
            i=0
            for seed in seeds:
                tmp=EDistance(row,seed)
                if tmp<d:
                    d=tmp
                    whichseed=i
                i+=1
            bestmatch[whichseed].append(row)
        return bestmatch

    #生成隨機種子
    def getseeds(self):
        #每個維度上最值組成的元組
        minandmax=[]
        for i in range(len(self.rows[0])):
            minandmax.append((min([row[i] for row in self.rows]),max([row[i] for row in self.rows])))
        seeds=[]
        for i in range(self.k):
            #生成隨機種子
            seeds.append([random.random()*(row[1]-row[0])+row[0] for row in minandmax])
        return seeds

    #K均值聚類的主函式
    def kcluster(self):
        #生成種子
        seeds=self.getseeds()
        lastseeds=seeds[:]
        while True:
            #根據種子生成最佳聚類
            bestmatch=self.getbestmatch(self.rows,seeds)
            #print(seeds)
            #print(bestmatch)

            #移動種子到匹配序列的均值處
            for i in range(self.k):
               seeds[i]=self.getavg(bestmatch[i],seeds[i])
            #print(seeds)
            #print(lastseeds)

            if lastseeds==seeds:
                break
            else: lastseeds=seeds[:]
        return bestmatch


obj=kcluster()
rs=obj.kcluster()
print(rs)

for j in range(obj.k):
    for i in range(len(sample)):
        if sample[i] in rs[j]:
            print(samplename[i],end=' ')
    print('')

執行後你會發現兩點:

1. 種子的選擇會對聚類結果造成很大的影響

2. 但無論種子怎麼選,中國足球都是三流

R語言自帶 kmeans, method引數指定計算距離的函式型別。

評估幾個分類最好:

numofc <- c()
bssp <- c()
for (i in (2:15)){

kmeans <- kmeans(na.omit(subset(train, select = -type)), i)
numofc[i-1] <- i
bssp[i-1] <- kmeans$betweenss/kmeans$totss

}

result <- data.frame(numofc[],bssp[])

qplot(numofc, bssp, data = result,geom = c(“point”,”smooth”))
betweenss/totss, 其實就跟評估線性模型那個R平方是一個含義,用聚類中心代表了這個分類裡所有點之後解釋了方差(在聚類中方差就演變成了各點到中心點的距離的平方和)的多少比例, 這個值越高越好。

另有一篇文章講的是提高k-means演算法的效率一種資料結構 kd tree和ball tree: