K-近鄰演算法

一、演算法概述

（1）採用測量不同特徵值之間的距離方法進行分類

優點：精度高、對異常值不敏感、無資料輸入假定。
缺點：計算複雜度高、空間複雜度高。

（2）KNN模型的三個要素

kNN演算法模型實際上就是對特徵空間的的劃分。模型有三個基本要素：距離度量、K值的選擇和分類決策規則的決定。

距離度量

距離定義為：
\[L_p(x_i,x_j)=\left( \sum^n_{l=1} |x_i^{(l)} - x_j^{(l)}|^p \right) ^{\frac{1}{p}}\]
一般使用歐式距離：p = 2的個情況
\[L_p(x_i,x_j)=\left( \sum^n_{l=1} |x_i^{(l)} - x_j^{(l)}|^2 \right) ^{\frac{1}{2}}\]
K值的選擇

一般根據經驗選擇，需要多次選擇對比才可以選擇一個比較合適的K值。

如果K值太小，會導致模型太複雜，容易產生過擬合現象，並且對噪聲點非常敏感。

如果K值太大，模型太過簡單，忽略的大部分有用資訊，也是不可取的。
分類決策規則

一般採用多數表決規則，通俗點說就是在這K個類別中，哪種類別最後就判別為哪種型別

二、實施kNN演算法

2.1 虛擬碼

計演算法已經類別資料集中的點與當前點之間的距離
按照距離遞增次序排序
選取與但前點距離最小的k個點
確定前k個點所在類別的出現頻率
返回前k個點出現頻率最高的類別作為當前點的預測分類

2.2 實際程式碼

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

三、實際案例：使用kNN演算法改進約會網站的配對效果

我的朋友阿J一直使用線上約會軟體尋找約會物件，他曾經交往過三種類型的人：

不喜歡的人
感覺一般的人
非常喜歡的人

步驟：

收集資料
準備資料：也就是讀取資料的過程
分析資料：使用Matplotlib畫出二維散點圖
訓練演算法
測試演算法
使用演算法

3.1 準備資料

樣本資料共有1000個，3個特徵值，共有4列資料，最後一列表示標籤分類（0：不喜歡的人；1：感覺一般的人；2：非常喜歡的人）

特徵

每年獲得的飛行常客里程數
玩視訊遊戲所好的時間百分比
每週消費的冰淇淋公斤數

部分資料如下：

40920   8.326976    0.953952    3
14488   7.153469    1.673904    2
26052   1.441871    0.805124    1
75136   13.147394   0.428964    1
38344   1.669788    0.134296    1
72993   10.141740   1.032955    1
35948   6.830792    1.213192    3
42666   13.276369   0.543880    3
67497   8.631577    0.749278    1
35483   12.273169   1.508053    3

讀取資料（讀取txt檔案）

def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

3.2 分析資料：使用Matplotlib建立散點圖

初步分析

import matplotlib
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
ax.set_xlabel("玩視訊遊戲所耗時間百分比")
ax.set_ylabel("每週消費的冰淇淋公斤數")
plt.show()

因為有三種類型的分類，這樣看的不直觀，我們新增以下顏色

fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0*array(datingLabels), 15.0*array(datingLabels))
ax.set_xlabel("玩視訊遊戲所耗時間百分比")
ax.set_ylabel("每週消費的冰淇淋公斤數")
plt.show()

通過都多次的嘗試後發現，玩遊戲時間和冰淇淋這個兩個特徵關係比較明顯

具體的步驟：

分別將標籤為1,2,3的三種類型的資料分開
使用matplotlib繪製，並使用不同的顏色加以區分

datingDataType1 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==1])
datingDataType2 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==2])
datingDataType3 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==3])
                   

fig, axs = plt.subplots(2, 2, figsize = (15,10))
axs[0,0].scatter(datingDataType1[:,0], datingDataType1[:,1], s = 20, c = 'red')
axs[0,1].scatter(datingDataType2[:,0], datingDataType2[:,1], s = 30, c = 'green')
axs[1,0].scatter(datingDataType3[:,0], datingDataType3[:,1], s = 40, c = 'blue')
type1 = axs[1,1].scatter(datingDataType1[:,0], datingDataType1[:,1], s = 20, c = 'red')
type2 = axs[1,1].scatter(datingDataType2[:,0], datingDataType2[:,1], s = 30, c = 'green')
type3 = axs[1,1].scatter(datingDataType3[:,0], datingDataType3[:,1], s = 40, c = 'blue')
axs[1,1].legend([type1, type2, type3], ["Did Not Like", "Liked in Small Doses", "Liked in Large Doses"], loc=2)
axs[1,1].set_xlabel("玩視訊遊戲所耗時間百分比")
axs[1,1].set_ylabel("每週消費的冰淇淋公斤數")

plt.show()

3.3 準備資料：資料歸一化

通過上面的圖形繪製，發現三個特徵值的範圍不一樣，在使用KNN進行計算距離的時候，數值大的特徵值就會對結果產生更大的影響。

資料歸一化：就是將幾組不同範圍的資料，轉換到同一個範圍內。

公式： newValue = (oldValue - min)/(max - min)

def autoNorm(dataSet):
    minVals = dataSet.min(0) # array([[1,20,3], [4,5,60], [7,8,9]])   min(0) = [1, 5, 3]
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normData = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normData = (dataSet - tile(minVals, (m,1)))/tile(ranges,(m,1))
    return normData

3.4 測試演算法

我們將原始樣本保留20%作為測試集，剩餘80%作為訓練集

def datingClassTest():
    hoRatio = 0.20  
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:,:],datingLabels[numTestVecs:],3)
        if (classifierResult != datingLabels[i]): 
            errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))
    print (errorCount)

執行結果

the total error rate is: 0.080000
16.0

四、原始碼

from numpy import *
import operator
from os import listdir

import matplotlib
import matplotlib.pyplot as plt
    
## KNN function
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

# read txt data
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector


def autoNorm(dataSet):
    minVals = dataSet.min(0) # array([[1,20,3], [4,5,60], [7,8,9]])   min(0) = [1, 5, 3]
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normData = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normData = (dataSet - tile(minVals, (m,1)))/tile(ranges,(m,1))
    return normData
    
    
    
    
def drawScatter1(datingDataMat, datingLabels):
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
    ax.set_xlabel("玩視訊遊戲所耗時間百分比")
    ax.set_ylabel("每週消費的冰淇淋公斤數")
    plt.show()
    
def drawScatter2(datingDataMat, datingLabels):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
    ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0*array(datingLabels), 15.0*array(datingLabels))
    ax.set_xlabel("玩視訊遊戲所耗時間百分比")
    ax.set_ylabel("每週消費的冰淇淋公斤數")
    plt.show()
    
    
def drawScatter3(datingDataMat, datingLabels):
    datingDataType1 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==1])
    datingDataType2 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==2])
    datingDataType3 = array([[x[0][0],x[0][1],x[0][2]] for x in zip(datingDataMat,datingLabels) if x[1]==3])

    fig, axs = plt.subplots(2, 2, figsize = (15,10))
    axs[0,0].scatter(datingDataType1[:,0], datingDataType1[:,1], s = 20, c = 'red')
    axs[0,1].scatter(datingDataType2[:,0], datingDataType2[:,1], s = 30, c = 'green')
    axs[1,0].scatter(datingDataType3[:,0], datingDataType3[:,1], s = 40, c = 'blue')
    type1 = axs[1,1].scatter(datingDataType1[:,0], datingDataType1[:,1], s = 20, c = 'red')
    type2 = axs[1,1].scatter(datingDataType2[:,0], datingDataType2[:,1], s = 30, c = 'green')
    type3 = axs[1,1].scatter(datingDataType3[:,0], datingDataType3[:,1], s = 40, c = 'blue')
    axs[1,1].legend([type1, type2, type3], ["Did Not Like", "Liked in Small Doses", "Liked in Large Doses"], loc=2)
    axs[1,1].set_xlabel("玩視訊遊戲所耗時間百分比")
    axs[1,1].set_ylabel("每週消費的冰淇淋公斤數")

    plt.show()
    
    
    
def datingClassTest():
    hoRatio = 0.20  
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:,:],datingLabels[numTestVecs:],3)
        if (classifierResult != datingLabels[i]): 
            errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))
    print (errorCount)
    
    
datingDataMat, datingLabels = file2matrix("datingTestSet2.txt")

drawScatter1(datingDataMat, datingLabels)
drawScatter2(datingDataMat, datingLabels)
drawScatter3(datingDataMat, datingLabels)
 
datingClassTest()
 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    [機器學習筆記]kNN進鄰演算法
      K-近鄰演算法
一、演算法概述
（1）採用測量不同特徵值之間的距離方法進行分類

優點： 精度高、對異常值不敏感、無資料輸入假定。
缺點： 計算複雜度高、空間複雜度高。

（2）KNN模型的三個要素
kNN演算法模型實際上就是對特徵空間的的劃分。模型有三個基本要素：距離度量、K值的選擇和分類決策規則的決定。
 

  
 

    

    
    【機器學習筆記27】CART演算法-迴歸樹和分類樹
      
							
							
							
基本概念
分類和迴歸樹(classification and regression tree, CART) 是應用廣泛的決策樹學習方法，由特徵選擇、樹的生成和剪枝組成，既可以用做分類也可以用作迴歸。
迴歸樹
迴歸樹的定義
假設X和Y分別作為輸入和輸出變數，那麼 

  
 

    

    
    機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類
      
							
							
							參考資料

《機器學習實戰》，Machine Learning in Action，本文中簡稱MLiA 
《機器學習》周志華，本文簡稱西瓜書 
《Web安全之機器學習》劉焱著，本文中簡稱WSML(Web Security in Machine Learning， 

  
 

    

    
    [機器學習]機器學習筆記整理08- SVM演算法原理及實現
      
								
								            
							
							
							<html>





        1  背景

最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 
目前的版本(so 

  
 

    

    
    機器學習筆記(一)k-NN演算法
      
							
							
							簡單地說,k-NN演算法就是根據測量不同特徵值之間的距離來進行分類的。 
    輸入沒有標籤的資料後，將新資料的每個特徵值的和樣本集的資料進行比較，然後提取樣本集中特徵最相似的資料，通常選取前k個最相似的資料，所有稱為k-鄰近演算法。 
    K-NN演算法 

  
 

    

    
    機器學習筆記(5)——SMO優化演算法(實現SVM)
      
							
							
							SMO序列最小化優化演算法



Sequential minimal optimization



優化目標是找到一組最優的αi*。一旦求出這些αi*，就很容易計算出權重向量w*和b，並得到分隔超平面了。



1.座標下降法



求解下面問題



在這 

  
 

    

    
    機器學習筆記1-k近鄰演算法的實現
      
                k_近鄰演算法:採用測量不同特徵值之間的距離方法進行分類.
優點:精度高,對異常值不明感,無資料輸入假定
缺點:計算複雜度高,空間複雜度高
適用資料範圍:數值型和標稱型
步驟如下:
1.計算一直類別資料集中的點御當前點之間的距離
2.按照距離的遞增次序排序
3.選取當前的點距 

  
 

    

    
    機器學習實戰（Machine Learning in Action）學習筆記————02.k-鄰近演算法（KNN）
      機器學習實戰（Machine Learning in Action）學習筆記————02.k-鄰近演算法（KNN）關鍵字：鄰近演算法（kNN: k Nearest Neighbors）、python、原始碼解析、測試作者：米倉山下時間：2018-10-21機器學習實戰（Machine Learning in  

  
 

    

    
    bobo老師機器學習筆記-第四課：KNN演算法
       
 
  
 自己參考Bobo老師寫得程式碼： 
 主要分為四個檔案： knn.py中實現KNN演算法、model_selection.py封裝了樣本資料的一些工具方法，比如切分為訓練集和測試集； 
 metrics用來對模型進行評估、client用來呼叫演算法進行執行 
 # -*- encoding:  

  
 

    

    
    機器學習筆記——最鄰近演算法（KNN）補充
       
  
  
 最鄰近演算法補充(K-Nearest Neighbor,KNN) 
  
 1、訓練資料集？測試資料集？ 
 我們在使用機器學習演算法訓練好模型以後，是否直接投入真實環境中使用呢？其實並不是這樣的，在訓練好模型後我們往往需要對我們所建立的模型做一個評估來判斷當前機器學習演算法的效能，當我們在 

  
 

    

    
    機器學習-4（k-進鄰演算法簡介中）
       
 
 
 既然要介紹該演算法，我們就簡單介紹一下歐式距離 
 這個應該是我們初中就學過的了，2點之間的距離就是它的多維空間裡面每個維度的座標的差的平方之和，再開方 
 公式就是 
  
 OK，我們現在按照分類的基本原則，把所有的樣本集都放進我們的座標系裡面來，有多少特徵，我們就建立幾維的空間座標系。 
 

  
 

    

    
    機器學習-3（k-進鄰演算法簡介）
       
 
 
     先簡單介紹一下k-進鄰演算法：採用測量不同特徵值之間的距離方法進行分類，OK，它是屬於監督學習了 
 優點：精度高，對異常值不敏感，無資料輸入假定 
 缺點：計算複雜度高，空間複雜度高 
 適用資料範圍：數值型和標稱型 
 在介紹這個演算法之前，先介紹一點基礎的數學概 

  
 

    

    
    機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理
       
 
 上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法：   
  K近鄰（KNN，全稱K-nearst Neighbor） 
       概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋 

  
 

    

    
    機器學習筆記(5) KNN演算法
      這篇其實應該作為機器學習的第一篇筆記的,但是在剛開始學習的時候,我還沒有用部落格記錄筆記的打算.所以也就想到哪寫到哪了. 
你在網上搜索機器學習系列文章的話,大部分都是以KNN（k nearest neighbors）作為第一篇入門的,因為這個演算法實在是太簡單了.簡單到其實沒啥可說的. 
  &n 

  
 

    

    
    機器學習筆記九：K近鄰演算法（KNN）
      
							
							
							一.基本思想

K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖： 
 
通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別 

  
 

    

    
    機器學習（一）k-進鄰演算法
       
 
 k-進鄰演算法 
 概述 
  
 原理 
 存在一個樣本資料集合，也稱作為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標籤的新資料後，將新的資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本最相似資料(最近鄰)的分類標籤。一 

  
 

    

    
    《機器學習實戰》學習筆記——kNN演算法
      
							
							
							《機器學習實戰》（MLiA）是一本介紹機器學習的書（的確是廢話），和其他書不同的地方在於它給出了python的實現程式碼，而其他的書籍重在解釋理論。我作為一名渣渣，理論就先放一放了。 
MLiA的第一章主要介紹了一些概念、常識性的東西，所以不做介紹，這篇文章主要 

  
 

    

    
    機器學習實戰--KNN 演算法  筆記
      
                
原始碼部分：
from numpy import *
import operatordef createDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']ret 

  
 

    

    
    機器學習筆記之（7）——聚類演算法
       
 
 
 對於監督學習，訓練資料都是事先已知預測結果的，即訓練資料中已提供了資料的類標。無監督學習則是在事先不知道正確結果（即無類標資訊或預期輸出值）的情況下，發現數據本身所蘊含的結構等資訊。
 無監督學習通過對無標記訓練樣本的學習來尋找這些資料的內在性質。
 聚類的目標是發現數據中自然形成的分組，使得每 

  
 

    

    
    機器學習實戰（Machine Learning in Action）學習筆記————08.使用FPgrowth演算法來高效發現頻繁項集
      機器學習實戰（Machine Learning in Action）學習筆記————08.使用FPgrowth演算法來高效發現頻繁項集關鍵字：FPgrowth、頻繁項集、條件FP樹、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@autho