【機器學習實戰】knn演算法手寫

阿新 • • 發佈：2018-12-19

首先初始化資料

def createDataSet():
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

然後實現分類，定義方法classify0

def classify0(inX, dataSet, labels, k):

inX：預測點 dataSet：樣本點 labels：樣本標籤 k：選擇最近鄰居數量

dataSetSize = dataSet.shape[0]

獲取樣本行數。然後計算預測點和樣本點的距離

diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances ** 0.5

首先將樣本擴充套件成shape=（dataSetSize, 1）的矩陣。舉個栗子，我們的預測點是（0, 1），我們樣本的行數是4，name最後np.tile之後的結果就是 [[0, 1] [0, 1] [0, 1] [0, 1]] 然後是矩陣的減法（不知道怎麼在這裡插入數學公式，只能意思一下） np.array([[0, 1], [0, 1], [0, 1], [0, 1]])-np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]]) = np.array([[-1.0, -0.1], [-1.0, 0], [0.0, 1.0], [0.0,1.0]])

在對昨晚差值的矩陣做平方和，計算出來的結果在做開根號，也就是我們通常計算標準差的方法。這裡通過矩陣的方法實現很巧妙的解決了我們不需要是關心維度的問題。

對計算出來的標準差進行排序

sortedDistIndicies = distances.argsort()

sortedDistIndicies返回的結果不是排序的結果，而是按順序排序完成之後index的結果，例如一個list[9, 6, 7, 3] 那麼返回的結果應該是[3, 1, 2, 0]分別表示的是按順序排列下來的index的值。選取距離最近的k個點，並將結果存入classCount這個字典中，key表示label，value表示接近這個值得點的個數

for i in range(k):
    voteIlabale = labels[sortedDistIndicies[i]]
    classCount[voteIlabale] = classCount.get(voteIlabale, 0) + 1

最後取結果個數最多的label值作為預測點的標籤。

完整程式碼如下： def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0]

# 距離計算
tileMat = np.tile(inX, (dataSetSize, 1))
diffMat = tileMat - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances ** 0.5
sortedDistIndicies = distances.argsort()
classCount = {}

#  選擇距離最小的k個點
for i in range(k):
    voteIlabale = labels[sortedDistIndicies[i]]
    classCount[voteIlabale] = classCount.get(voteIlabale, 0) + 1

sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]

【機器學習實戰】knn演算法手寫

【機器學習實戰】knn演算法手寫

【機器學習實戰】—KNN分類演算法

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

【機器學習實戰】FP-growth演算法詳解

【機器學習實戰】11.使用Apriori演算法進行關聯分析——python3程式

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

【機器學習實戰】第13章利用 PCA 來簡化數據

【機器學習實戰】樸素貝葉斯

C++單刷《機器學習實戰》——kNN演算法完整程式碼

【機器學習五】KNN

【機器學習實戰】支援向量機----分類庫和簡單訓練mnist

機器學習實戰之KNN演算法

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

【機器學習實戰】Logistic迴歸總結與思考

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

【機器學習實戰】第3章決策樹

【機器學習實戰】第1章機器學習基礎

【好玩的計算機視覺】KNN演算法手寫數字識別

【機器學習實戰】5.Logistic迴歸（1）

【機器學習實戰】knn演算法手寫

相關推薦