python實現KNN演算法
阿新 • • 發佈:2018-12-11
from numpy import * import operator import numpy as np a = np.array([1,2,3,4,5,6]) print(a.shape) def knn(k,testdata,traindata,labels):#traindata訓練資料集 labels標籤 k代表取多少個 traindatasize = traindata.shape[0]#shape函式檢視陣列有多少行列 [0]檢視的是行數 dif = tile(testdata,(traindatasize,1))-traindata#計算差值 tile將訓練集與測試集轉換成相同維度 sqdif = dif**2 #差值平方 sumsqdif = sqdif.sum(axis=1)#axis = 各行差值求和 distance = sumsqdif**0.5#開方求出距離 sortidstance = distance.argsort()#排序 count = {} for i in range(0,k):#經過k次迴圈 vote = labels[sortdistance[i]]#投票 每次取距離最小的 count[vote] = count.get(vote,0)+1 #計算最小值出現了多少次 sortcount = sorted(count.items(),key = operator.itemgetter(1),reverser=True) #sorted(iterable[, cmp[, key[, reverse]]]) #投票的次數排序 key指定按照什麼排序 reverser=True 為降序 預設為升序 return sortcount[0][0]#第0個元素第0個值
程式碼內容解釋
from numpy import * a = array([1,5,6,7]) #tile(a,2)#擴充套件a為兩次 即原有列數*2 b = tile(a,(3,2)) #擴充套件a為 3行 8列 括號中3為行數,8列=2*4(原有列數) b.shape b.sum(axis=1)#各行求和 b.sum(axis=0)#各列求和 a.argsort()#排序 c = {} c[5]=c.get(5,0)+1 c[5]=c.get(5,0)+1 #計算5出現了多少次 print(c) count.items()#items() 方法以列表返回可遍歷的(鍵, 值) 元組陣列。 operator.itemgtter(1) # sorted(iterable[, cmp[, key[, reverse]]]) # students為類物件的list,沒個成員有三個域,用sorted進行比較時可以自己定cmp函式,例如這裡要通過比較第三個資料成員來排序,程式碼可以這樣寫: # students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)] # sorted(students, key=lambda student : student[2]) ''' (1)iterable指定要排序的list或者iterable(可迭代的); (2)cmp為函式,指定排序時進行比較的函式,可以指定一個函式或者lambda函式。 (3)key為函式,指定取待排序元素的哪一項進行排序,函式用上面的例子來說明,程式碼如下: sorted(students, key=lambda student : student[2]) key指定的lambda函式功能是取元素student的第三個域(即:student[2]),因此sorted排序時,會以students所有元素的第三個域來進行排序,即15, 12,10來排序 有了上面的operator.itemgetter函式,也可以用該函式來實現,例如要通過student的第三個域排序,可以這麼寫: sorted(students, key=operator.itemgetter(2)) sorted函式也可以進行多級排序,例如要根據第二個域和第三個域進行排序,可以這麼寫: sorted(students, key=operator.itemgetter(1,2)) 即先根據第二個域排序,再根據第三個域排序。 (4)reverse引數就不用多說了,是一個bool變數,表示升序還是降序排列,預設為false(升序排列),定義為True時將按降序排列。 '''