python利用K均值做聚類,判斷中國足球第幾流
阿新 • • 發佈:2019-02-20
讀了部落格園的一篇 文章
受到啟發,寫了一個K均值的python實現,程式碼如下:
import random from math import sqrt sample=[ [1,1,0.5], [0.3,0,0.19], [0,0.15,0.13], [0.24,0.76,0.25], [0.3,0.76,0.06], [1,1,0], [1,0.76,0.5], [1,0.76,0.5], [0.7,0.76,0.25], [1,1,0.5], [1,1,0.25], [1,1,0.5], [0.7,0.76,0.5], [0.7,0.68,0.5], [1,1,0.5] ] samplename=['中國','日本','韓國','伊朗','沙特','伊拉克','卡達','阿聯酋','烏茲別克','泰國','越南','阿曼','巴林','朝鮮','印尼'] def EDistance(v1,v2): tmp=sum([pow(v1[i]-v2[i],2) for i in range(len(v1))]) return sqrt(tmp) class kcluster: k=3 distance=mypearson rows=sample #獲取用於比較的序列的在各個維度上均值組成的序列 def getavg(self,rows,seed): n=len(rows) if n==0: return seed rs=[] for i in range(len(rows[0])): rs.append(sum([row[i] for row in rows])/n) return rs #根據種子獲取與種子最接近的序列 def getbestmatch(self,rows,seeds): bestmatch={} for i in range(self.k): bestmatch.setdefault(i,[]) #判斷每個序列最匹配的種子 for row in rows: d=9999 whichseed=0 i=0 for seed in seeds: tmp=EDistance(row,seed) if tmp<d: d=tmp whichseed=i i+=1 bestmatch[whichseed].append(row) return bestmatch #生成隨機種子 def getseeds(self): #每個維度上最值組成的元組 minandmax=[] for i in range(len(self.rows[0])): minandmax.append((min([row[i] for row in self.rows]),max([row[i] for row in self.rows]))) seeds=[] for i in range(self.k): #生成隨機種子 seeds.append([random.random()*(row[1]-row[0])+row[0] for row in minandmax]) return seeds #K均值聚類的主函式 def kcluster(self): #生成種子 seeds=self.getseeds() lastseeds=seeds[:] while True: #根據種子生成最佳聚類 bestmatch=self.getbestmatch(self.rows,seeds) #print(seeds) #print(bestmatch) #移動種子到匹配序列的均值處 for i in range(self.k): seeds[i]=self.getavg(bestmatch[i],seeds[i]) #print(seeds) #print(lastseeds) if lastseeds==seeds: break else: lastseeds=seeds[:] return bestmatch obj=kcluster() rs=obj.kcluster() print(rs) for j in range(obj.k): for i in range(len(sample)): if sample[i] in rs[j]: print(samplename[i],end=' ') print('')
執行後你會發現兩點:
1. 種子的選擇會對聚類結果造成很大的影響
2. 但無論種子怎麼選,中國足球都是三流
R語言自帶 kmeans, method引數指定計算距離的函式型別。
評估幾個分類最好:
betweenss/totss, 其實就跟評估線性模型那個R平方是一個含義,用聚類中心代表了這個分類裡所有點之後解釋了方差(在聚類中方差就演變成了各點到中心點的距離的平方和)的多少比例, 這個值越高越好。numofc <- c() bssp <- c() for (i in (2:15)){ kmeans <- kmeans(na.omit(subset(train, select = -type)), i) numofc[i-1] <- i bssp[i-1] <- kmeans$betweenss/kmeans$totss } result <- data.frame(numofc[],bssp[]) qplot(numofc, bssp, data = result,geom = c(“point”,”smooth”))
另有一篇文章講的是提高k-means演算法的效率一種資料結構 kd tree和ball tree: