《機器學習實戰》第二章——K-近鄰演算法

阿新 • • 發佈：2019-01-21

1.K-近鄰演算法（kNN）

1.1K-近鄰演算法概述

簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類

優點：精度高、對異常值不敏感、無資料輸入假定

缺點：計算複雜度高、空間複雜度高

適用資料範圍：數值型和標稱型

1.2KNN演算法原理

存在一個樣本訓練資料集合，並且每個樣本資料都存在標籤，即我們知道樣本集中每一位資料和所屬分類的對應關係。輸入沒有新標籤的資料集後，將新資料的每個特徵與資料集樣本中的對應的特徵進行比較，然後演算法提取樣本集中特徵最相近的資料（最近鄰）的分類標籤。一般來說，我們只選擇資料集中前k個最相似的資料，這就是K-近鄰演算法中k的出處。通常K是不大於20的整數。最後選擇最相似資料中出現次數最多的分類，作為新資料的分類。

電影型別評估程式碼（本書所需的資料集可到這位大神的GitHub下載）

import numpy as np
import operator

def createDataSet():
    group=np.array([[3,104],[2,100],[101,10],[99,5]])
    #四組二維特徵
    labels=['愛情片','愛情片','動作片','動作片']
    #四組二維特徵對應的標籤
    return group,labels

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #numpy函式shape[0]返回dataSet的行數
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    #np.tile()函式，把陣列沿各個方向複製，此例中是沿橫向複製一倍（其實是沒有增加），縱向複製dataSetSize次
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #sum(0)列相加，sum(1)行相加
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #返回distance中元素從小到大的排列值
    classCount={}
    for i in range(k):
        votelabel=labels[sortedDistIndicies[i]]
        #取出前k個元素的類別
        classCount[votelabel]=classCount.get(votelabel,0)+1
        #dict.get(key,default=None),字典的get方法，返回指定鍵的值，如果不在字典中返回預設值
        #計算類別次數
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #字典函式items()，函式以列表返回可遍歷的鍵和值
    #python3中用items()替換python2中的iteritems()
    #key=operator.itemgetter[1]根據字典的值進行排序
    #key=operator.itemgetter[0 ]根據字典的鍵進行排序
    #reverse降序排序字典
    return sortedClassCount[0][0]
    #返回次數最多的類別    

if __name__=='__main__':
    group,labels=createDataSet()
    test=[3,100]
    result=classify0(test,group,labels,2)
    print(result)

執行結果：

在約會網站上使用K—近鄰演算法尋找合適海倫的人

分析資料：使用Matplotlib建立散點圖

import numpy as np
import matplotlib
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus']=False #用來正常顯示負號

def file2matrix(filename):
    fr=open(filename)
    arrayOlLines=fr.readlines()
    #讀取檔案所有內容
    numberOfLines=len(arrayOlLines)
    returnMat=np.zeros((numberOfLines,3))
    #np.zeros()函式生成矩陣中的值全為0
    classLabelVector=[]
    index=0
    for line in arrayOlLines:
        line=line.strip()
        #strip(),括號為空時，預設刪除空白符（包括\n,\r,\t)
        listFromline=line.split('\t')
        returnMat[index,:]=listFromline[0:3]
        if listFromline[-1]=='didntLike':
            classLabelVector.append(1)
        elif listFromline[-1]=='smallDoses':
            classLabelVector.append(2)
        elif listFromline[-1]=='largeDoses':
            classLabelVector.append(3)
        index+=1
    return returnMat,classLabelVector

def showdata(data,classla):
    fig=plt.figure()
    #產生一個空視窗
    ax=fig.add_subplot(221)#221的意思是把一張圖片分為兩行兩列，把ax要顯示的放在第一張圖上
    bx=fig.add_subplot(222)
    cx=fig.add_subplot(223)
    #將fig畫布分隔成1行1列,不共享x軸和y軸,fig畫布的大小為(13,8)
    #當nrow=2,nclos=2時,代表fig畫布被分為四個區域,axs[0][0]表示第一行第一個區域
    #fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))

    #number0fLabels=len(data)
    labelsColors=[]
    for i in classla:
        if  i==1:
            labelsColors.append('black')
        if  i==2:
            labelsColors.append('orange')
        if  i==3:
            labelsColors.append('red')

    #print(type(data),type(classla))
    ax.scatter(data[:,0],data[:,1],color=labelsColors,s=15,alpha=.5)
    bx.scatter(data[:,0],data[:,2],color=labelsColors,s=15,alpha=.5)
    cx.scatter(data[:,1],data[:,2],color=labelsColors,s=15,alpha=.5)
   
    ax_xlabel_text = ax.set_xlabel(u'每年獲得的飛行常客里程數')
    ax_ylabel_text = ax.set_ylabel(u'玩視訊遊戲所消耗時間佔比')
 
    bx_xlabel_text = bx.set_xlabel(u'每年獲得的飛行常客里程數')
    bx_ylabel_text = bx.set_ylabel(u'每週消費的冰激淋公升數')
   
    cx_xlabel_text = cx.set_xlabel(u'玩視訊遊戲所消耗時間佔比')
    cx_ylabel_text = cx.set_ylabel(u'每週消費的冰激淋公升數')
    plt.setp(ax_xlabel_text, size=7, weight='bold', color='black') 
    plt.setp(bx_xlabel_text, size=7, weight='bold', color='black')
    plt.setp(cx_xlabel_text, size=7, weight='bold', color='black')
    plt.setp(ax_ylabel_text, size=7, weight='bold', color='black')
    plt.setp(bx_ylabel_text, size=7, weight='bold', color='black')
    plt.setp(cx_ylabel_text, size=7, weight='bold', color='black')
    plt.show()

if __name__=="__main__":
    data,classla=file2matrix('./datingTestSet.txt')
    showdata(data,classla)

執行結果：

準備資料，這裡使用了歐式距離來計算兩個點之間的距離：

然後對資料做了歸一化處理

歸一化程式碼：

#準備資料，歸一化資料

# -*- coding: utf-8 -*-
"""
Created on Sun Apr  1 20:11:04 2018


@author: Administrator
"""
import operator
import numpy as np
import matplotlib
import matplotlib.pyplot as plt


def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #numpy函式shape[0]返回dataSet的行數
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    #np.tile()函式，把陣列沿各個方向複製，此例中是沿橫向複製一倍（其實是沒有增加），縱向複製dataSetSize次
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #sum(0)列相加，sum(1)行相加
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #返回distance中元素從小到大的排列值
    classCount={}
    for i in range(k):
        votelabel=labels[sortedDistIndicies[i]]
        #取出前k個元素的類別
        classCount[votelabel]=classCount.get(votelabel,0)+1
        #dict.get(key,default=None),字典的get方法，返回指定鍵的值，如果不在字典中返回預設值
        #計算類別次數
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #字典函式items()，函式以列表返回可遍歷的鍵和值
     #python3中用items()替換python2中的iteritems()
     #key=operator.itemgetter[1]根據字典的值進行排序
     #key=operator.itemgetter[0 ]根據字典的鍵進行排序
     #reverse降序排序字典
    return sortedClassCount[0][0]
    #返回次數最多的類別

#準備資料，歸一化資料

def autoNorm(dataSet):
    min=dataSet.min(0)
    max=dataSet.max(0)
    ranges=max-min
    m=dataSet.shape[0]
    normDataSet=dataSet-np.tile(min,(m,1))
    normDataSet=normDataSet/np.tile(ranges,(m,1))
    return normDataSet,ranges,min

def file2matrix(filename):
    fr=open(filename)
    arrayOlLines=fr.readlines()
    #讀取檔案所有內容
    numberOfLines=len(arrayOlLines)
    returnMat=np.zeros((numberOfLines,3))
    #np.zeros()函式生成矩陣中的值全為0
    classLabelVector=[]
    index=0
    for line in arrayOlLines:
        line=line.strip()
        #strip(),括號為空時，預設刪除空白符（包括\n,\r,\t)
        listFromline=line.split('\t')
        returnMat[index,:]=listFromline[0:3]
        if listFromline[-1]=='didntLike':
            classLabelVector.append(1)
        elif listFromline[-1]=='smallDoses':
            classLabelVector.append(2)
        elif listFromline[-1]=='largeDoses':
            classLabelVector.append(3)
        index+=1
    return returnMat,classLabelVector



if __name__=="__main__":
    data,classla=file2matrix('./datingTestSet.txt')
    data1=autoNorm(data)
    print(data1)

執行結果：

用完整程式碼測試分類器效果

# -*- coding: utf-8 -*-
"""
Created on Sun Apr  1 20:11:04 2018

@author: Administrator
"""
import operator
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #numpy函式shape[0]返回dataSet的行數
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    #np.tile()函式，把陣列沿各個方向複製，此例中是沿橫向複製一倍（其實是沒有增加），縱向複製dataSetSize次
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #sum(0)列相加，sum(1)行相加
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #返回distance中元素從小到大的排列值
    classCount={}
    for i in range(k):
        votelabel=labels[sortedDistIndicies[i]]
        #取出前k個元素的類別
        classCount[votelabel]=classCount.get(votelabel,0)+1
        #dict.get(key,default=None),字典的get方法，返回指定鍵的值，如果不在字典中返回預設值
        #計算類別次數
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #字典函式items()，函式以列表返回可遍歷的鍵和值
     #python3中用items()替換python2中的iteritems()
     #key=operator.itemgetter[1]根據字典的值進行排序
     #key=operator.itemgetter[0 ]根據字典的鍵進行排序
     #reverse降序排序字典
    return sortedClassCount[0][0]
    #返回次數最多的類別


#準備資料，歸一化資料

def autoNorm(dataSet):
    min=dataSet.min(0)
    max=dataSet.max(0)
    ranges=max-min
    m=dataSet.shape[0]
    normDataSet=dataSet-np.tile(min,(m,1))
    normDataSet=normDataSet/np.tile(ranges,(m,1))
    return normDataSet,ranges,min


def file2matrix(filename):
    fr=open(filename)
    arrayOlLines=fr.readlines()
    #讀取檔案所有內容
    numberOfLines=len(arrayOlLines)
    returnMat=np.zeros((numberOfLines,3))
    #np.zeros()函式生成矩陣中的值全為0
    classLabelVector=[]
    index=0
    for line in arrayOlLines:
        line=line.strip()
        #strip(),括號為空時，預設刪除空白符（包括\n,\r,\t)
        listFromline=line.split('\t')
        returnMat[index,:]=listFromline[0:3]
        if listFromline[-1]=='didntLike':
            classLabelVector.append(1)
        elif listFromline[-1]=='smallDoses':
            classLabelVector.append(2)
        elif listFromline[-1]=='largeDoses':
            classLabelVector.append(3)
        index+=1
    return returnMat,classLabelVector




#測試演算法，作為完整程式驗證分類

def datingClassTest():
    hoRatio=0.2
    datingDataMat,datingLabels=file2matrix('datingTestSet.txt')
    normMat,ranges,min=autoNorm(datingDataMat)
    m=normMat.shape[0]
    numTestVecs=int(m*hoRatio)
    errorCount=0.0
    for i in range(numTestVecs):
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],5)
        print('分類器返回:{},正確結果是:{}'.format(classifierResult,datingLabels[i]))
        if(classifierResult!=datingLabels[i]):
            errorCount+=1.0
    print('the total error rate is:{}'.format(errorCount/float(numTestVecs)))


if __name__=="__main__":
    datingClassTest()

執行結果：

這裡的資料集錯誤率是6.5%，有點高，可以試著改變k值和hoRatio的值來調整錯誤率。

使用演算法

# -*- coding: utf-8 -*-
"""
Created on Sun Apr  1 20:11:04 2018

@author: Administrator
"""
import operator
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #numpy函式shape[0]返回dataSet的行數
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    #np.tile()函式，把陣列沿各個方向複製，此例中是沿橫向複製一倍（其實是沒有增加），縱向複製dataSetSize次
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #sum(0)列相加，sum(1)行相加
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #返回distance中元素從小到大的排列值
    classCount={}
    for i in range(k):
        votelabel=labels[sortedDistIndicies[i]]
        #取出前k個元素的類別
        classCount[votelabel]=classCount.get(votelabel,0)+1
        #dict.get(key,default=None),字典的get方法，返回指定鍵的值，如果不在字典中返回預設值
        #計算類別次數
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #字典函式items()，函式以列表返回可遍歷的鍵和值
     #python3中用items()替換python2中的iteritems()
     #key=operator.itemgetter[1]根據字典的值進行排序
     #key=operator.itemgetter[0 ]根據字典的鍵進行排序
     #reverse降序排序字典
    return sortedClassCount[0][0]
    #返回次數最多的類別


#準備資料，歸一化資料

def autoNorm(dataSet):
    min=dataSet.min(0)
    max=dataSet.max(0)
    ranges=max-min
    m=dataSet.shape[0]
    normDataSet=dataSet-np.tile(min,(m,1))
    normDataSet=normDataSet/np.tile(ranges,(m,1))
    return normDataSet,ranges,min


def file2matrix(filename):
    fr=open(filename)
    arrayOlLines=fr.readlines()
    #讀取檔案所有內容
    numberOfLines=len(arrayOlLines)
    returnMat=np.zeros((numberOfLines,3))
    #np.zeros()函式生成矩陣中的值全為0
    classLabelVector=[]
    index=0
    for line in arrayOlLines:
        line=line.strip()
        #strip(),括號為空時，預設刪除空白符（包括\n,\r,\t)
        listFromline=line.split('\t')
        returnMat[index,:]=listFromline[0:3]
        if listFromline[-1]=='didntLike':
            classLabelVector.append(1)
        elif listFromline[-1]=='smallDoses':
            classLabelVector.append(2)
        elif listFromline[-1]=='largeDoses':
            classLabelVector.append(3)
        index+=1
    return returnMat,classLabelVector




#測試演算法，作為完整程式驗證分類

def datingClassTest():
    hoRatio=0.2
    datingDataMat,datingLabels=file2matrix('datingTestSet.txt')
    normMat,ranges,min=autoNorm(datingDataMat)
    m=normMat.shape[0]
    numTestVecs=int(m*hoRatio)
    errorCount=0.0
    for i in range(numTestVecs):
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],5)
        print('分類器返回:{},正確結果是:{}'.format(classifierResult,datingLabels[i]))
        if(classifierResult!=datingLabels[i]):
            errorCount+=1.0
    print('the total error rate is:{}'.format(errorCount/float(numTestVecs)))

def classifPreson():
    resultList=['nor at all','in small does','in large doses']
    percentTate=float(input('話費在玩遊戲上的時間百分比:'))
    ffMile=float(input('每年飛行公里數:'))
    iceCream=float(input('每週消耗的冰激凌公升數:'))
    dataset,dataLabels=file2matrix('datingTestSet.txt')
    normMat,ranges,min=autoNorm(dataset)
    inArr=np.array([ffMile,percentTate,iceCream])
    classifierresult=classify0((inArr-min)/ranges,normMat,dataLabels,3)
    print('你將要可能喜歡這個喜歡人：',resultList[classifierresult-1])
    
if __name__=="__main__":
    #datingClassTest()
    classifPreson()

執行結果：

sklearn實戰——手寫識別系統

sklearn有提供KNN演算法的API，直接呼叫即可。

import numpy as np
import operator
from sklearn.neighbors import KNeighborsClassifier as kNN
from os import listdir

def img2vector(filename):
    returnvect=np.zeros((1,1024))
    fr=open(filename)
    for i in range(32):
        linestr=fr.readline()
        for j in range(32):
            returnvect[0,32*i+j]=int(linestr[j])
    return returnvect
    

def handwritingClassTest():
    hwLabels=[]
    trainingFileList=listdir('trainingDigits')
    m=len(trainingFileList)
    trainingMat=np.zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        classNumber=int(fileNameStr.split('_')[0])
        hwLabels.append(classNumber)
        trainingMat[i,:]=img2vector('trainingDigits/{}'.format(fileNameStr))
    neigh=kNN(n_neighbors=3,algorithm='auto')
    neigh.fit(trainingMat,hwLabels)
    testFileList=listdir('testDigits')
    errorCount=0.0
    mtest=len(testFileList)
    for i in range(mtest):
        fileNameStr=testFileList[i]
        classNumber=int(fileNameStr.split('_')[0])
        vectoUndertest=img2vector('testDigits/{}'.format(fileNameStr))   
        classifierResult=neigh.predict(vectoUndertest)
        print('分類返回結果為：{} 真實結果為：{}'.format(classifierResult,classNumber))
        if (classifierResult!=classNumber):
            errorCount+=1
    print('總共錯了{}個數據，錯誤率為{}'.format(errorCount,errorCount/mtest*100))
        


if __name__=='__main__':
     handwritingClassTest()

執行結果：

《機器學習實戰》第二章——K-近鄰演算法

1.K-近鄰演算法（kNN）

C++單刷《機器學習實戰》之一——k-近鄰演算法

機器學習實戰筆記2(k-近鄰演算法)

《機器學習實戰》—— KNN(K近鄰演算法)

《機器學習實戰》第二章——k-近鄰演算法——筆記

《機器學習實戰》第二章——K-近鄰演算法

機器學習實戰第二章——學習KNN演算法，讀書筆記

機器學習實戰第二章----KNN

機器學習實戰-第二章代碼+註釋-KNN

機器學習實戰筆記（K近鄰）

機器學習（6）K近鄰演算法

【機器學習筆記】基於k-近鄰演算法的數字識別

我與機器學習 - [Today is Knn] - [K-近鄰演算法]

機器學習筆記九：K近鄰演算法（KNN）

機器學習實戰第二章KNN（1）python程式碼及註釋

機器學習實戰之使用k-鄰近演算法改進約會網站的配對效果

機器學習實施kNN之k-近鄰演算法--演算法步驟

機器學習實戰第二章記錄

CSDN機器學習筆記十二 k-近鄰演算法實現手寫識別系統

機器學習實戰之第二章 k-近鄰算法

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

《機器學習實戰》第二章——K-近鄰演算法

1.K-近鄰演算法（kNN）

相關推薦