1. 程式人生 > >python實現KNN演算法

python實現KNN演算法

from numpy import *
import operator
import numpy as np
a = np.array([1,2,3,4,5,6])
print(a.shape)
def knn(k,testdata,traindata,labels):#traindata訓練資料集 labels標籤 k代表取多少個
    traindatasize = traindata.shape[0]#shape函式檢視陣列有多少行列 [0]檢視的是行數
    dif = tile(testdata,(traindatasize,1))-traindata#計算差值 tile將訓練集與測試集轉換成相同維度
    sqdif = dif**2 #差值平方
    sumsqdif = sqdif.sum(axis=1)#axis = 各行差值求和
    distance = sumsqdif**0.5#開方求出距離
    sortidstance = distance.argsort()#排序
    count = {}
    for i in range(0,k):#經過k次迴圈
        vote = labels[sortdistance[i]]#投票  每次取距離最小的
        count[vote] = count.get(vote,0)+1 #計算最小值出現了多少次
    sortcount = sorted(count.items(),key = operator.itemgetter(1),reverser=True)
    #sorted(iterable[, cmp[, key[, reverse]]])
    #投票的次數排序 key指定按照什麼排序 reverser=True 為降序 預設為升序
    return sortcount[0][0]#第0個元素第0個值
    

  

程式碼內容解釋

from numpy import *
a = array([1,5,6,7])
#tile(a,2)#擴充套件a為兩次 即原有列數*2
b = tile(a,(3,2))
#擴充套件a為 3行 8列   括號中3為行數,8列=2*4(原有列數)
b.shape

b.sum(axis=1)#各行求和
b.sum(axis=0)#各列求和
a.argsort()#排序
c = {}
c[5]=c.get(5,0)+1
c[5]=c.get(5,0)+1 #計算5出現了多少次
print(c)
count.items()#items() 方法以列表返回可遍歷的(鍵, 值) 元組陣列。
operator.itemgtter(1) 
#      sorted(iterable[, cmp[, key[, reverse]]])
#     students為類物件的list,沒個成員有三個域,用sorted進行比較時可以自己定cmp函式,例如這裡要通過比較第三個資料成員來排序,程式碼可以這樣寫:
#      students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
#     sorted(students, key=lambda student : student[2])
'''
(1)iterable指定要排序的list或者iterable(可迭代的);
(2)cmp為函式,指定排序時進行比較的函式,可以指定一個函式或者lambda函式。
(3)key為函式,指定取待排序元素的哪一項進行排序,函式用上面的例子來說明,程式碼如下:
      sorted(students, key=lambda student : student[2])
      key指定的lambda函式功能是取元素student的第三個域(即:student[2]),因此sorted排序時,會以students所有元素的第三個域來進行排序,即15,
      12,10來排序
      有了上面的operator.itemgetter函式,也可以用該函式來實現,例如要通過student的第三個域排序,可以這麼寫:
sorted(students, key=operator.itemgetter(2)) 
sorted函式也可以進行多級排序,例如要根據第二個域和第三個域進行排序,可以這麼寫:
sorted(students, key=operator.itemgetter(1,2))

即先根據第二個域排序,再根據第三個域排序。
(4)reverse引數就不用多說了,是一個bool變數,表示升序還是降序排列,預設為false(升序排列),定義為True時將按降序排列。
'''