k近鄰演算法（K-Nearest Neighbor）

阿新 • • 發佈：2019-01-10

k近鄰是一種常用的分類與迴歸演算法，其原理比較簡單

基本思想

給定一個訓練資料集，其中的例項的類別已定，對於新的例項，根據其K個距離最短的訓練例項的類別出現的頻率，對新的例項進行預測。

距離計算

歐式距離

曼哈頓距離

K的取值

K值的選擇對k近鄰法的結果產生重大影響

K值較小，近似誤差會減小，估計誤差會增大，意味著整體模型變得複雜，產生過擬合。

K值較大，近似誤差會增大，估計誤差會減少，模型簡單，容易是預測發生錯誤。

這裡寫圖片描述

實際應用中，K值一般取一個比較小的值，在採用交叉驗證來逐步調整K值，最終選擇適合該樣本的最優的K值。

KNN演算法實現
演算法基本步驟：

1）計算待分類點與已知類別的點之間的距離

2）按照距離遞增次序排序

3）選取與待分類點距離最小的k個點

4）確定前k個點所在類別的出現次數

5）返回前k個點出現次數最高的類別作為待分類點的預測分類

Code

#kNN.py

from numpy import  *
import operator

def createDataSet():

    group = array([[1.0, 1.1, 1.2], [1.2, 1.0, 1.1], [1.1, 1.2, 1.0], [0.1, 0.5, 0.7], [0.2, 0,1, 0.3], [2.1, 2.0, 2.1]])
    labels  = ["AAA" 
, "AAA", "BBB", "BBB", "CCC"]

    return group,labels


def classfity(sampleX, dataSet, labels, k):

    dataSetSize = len(dataSet)

    diffMat = tile(sampleX, (dataSetSize, 1))  - dataSet

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis =1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsorts()

    classCount = {}

    for 
 i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)

    return sortedClassCount[0][0]

k近鄰演算法（K-Nearest Neighbor）

k近鄰是一種常用的分類與迴歸演算法，其原理比較簡單基本思想給定一個訓練資料集，其中的例項的類別已定，對於新的例項，根據其K個距離最短的訓練例項的類別出現的頻率，對新的例項進行預測。距離計算歐式距離曼哈頓距離 K的取值

【機器學習】k-近鄰演算法（k-nearest neighbor, k-NN）

前言 kk近鄰學習是一種常用的監督學習方法。 kk近鄰法的輸入為例項的特徵向量，對應於特徵空間的點；輸出為例項的類別，可以取多類。 kk近鄰法的工作機制很簡單：給定測試樣本，基於某種距離度量（關於

C++實現的簡單k近鄰演算法（K-Nearest-Neighbour，K-NN）

</#include<map> #include<vector> #include<stdio.h> #include<cmath> #include<cstdlib> #include<algorithm> #include<

機器學習實戰---k近鄰演算法（程式碼及執行）

import numpy as np #匯入numpy import operator #運算子模組 #k-近鄰演算法 #計算距離 def classify0(inX,dataSet,labels,k): dataSetSize=dataSet.shape[0] #shape讀取資料矩

機器學習實戰（一）k-近鄰kNN（k-Nearest Neighbor）

目錄 0. 前言 1. k-近鄰演算法kNN（k-Nearest Neighbor） 2. 實戰案例 2.1. 簡單案例 2.2. 約會網站案例 2.3. 手寫識別案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中

小白python學習——機器學習篇——k-近鄰演算法（KNN演算法）

一、演算法理解一般給你一資料集，作為該題目的資料（一個矩陣，每一行是所有特徵），而且每一組資料都是分了類，然後給你一個數據，讓這個你預測這組資料屬於什麼類別。你需要對資料集進行處理，如：歸一化數值。處理後可以用matplotlib繪製出影象，一般選兩個特徵繪製x，y軸，然後核心是計算出預測點到

Python中的k—近鄰演算法（處理常見的分類問題）

最近買了一本機器學習的書，書名叫《機器學習實戰》，剛學了第一個演算法，k—近鄰演算法，所以寫篇部落格分享一下。那麼開始，我們假設平面座標系上面有四個座標點，座標分別是 [1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1] 然後這四個點有兩個

基於scikit-learn實現k近鄰演算法（kNN）與超引數的除錯

前一篇關於kNN的部落格介紹了演算法的底層實現，這片部落格讓我們一起看一看基於scikit-learn如何快速的實現kNN演算法。 scikit-learn內建了很多資料集，就不用我們自己編造假資料了，下面我們分別選用鳶尾花和手寫數字識別的資料集。首先匯入需要的庫 from sklea

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

K-近鄰演算法（KNN）

#-*- coding:utf-8 -*- import numpy as np import operator def createDataset(): #四組二維特徵 group = np.array([[5,115],[7,106],[56,11],[66,9]])

機器學習十大經典演算法之K-近鄰演算法（學習筆記）

演算法概述 K-近鄰演算法(k-Nearest Neighbor，KNN)是機器學習演算法中最簡單最容易理解的演算法。該演算法的思路是：給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分

資料分析06sklearn資料集及K近鄰演算法（轉）

機器學習應用程式的步驟（1）收集資料我們可以使用很多方法收集樣本護具，如：公司自有資料製作網路爬蟲從網站上抽取資料、第三方購買的資料合作機構提供的資料從RSS反饋或者API中得到資訊、裝置傳送過來的實測資料。（2）準備輸入資料得到資料之後

K最近鄰演算法（K-NN）

K-NN是什麼？ K最近鄰演算法是一種簡單但目前最常用的分類演算法，也可用於迴歸。 KNN沒有引數（不對資料潛在分佈規律做任何假設），基於例項（不建立明確的模型，而是通過具體的訓練例項進行預測），用於監督學習中。 K-NN演算法怎麼工作？當用KNN進行分類時，

《機器學習實戰》學習總結1——K-近鄰演算法（程式清單2-1）

程式碼如下： def classify0(inX, dataSet, labels, k): # inX是用於分類的輸入向量，dataSet是輸入的訓練樣本集，lebels是標籤向量，k是用於選擇最近鄰居的數目 dataSetSiz

機器學習之K-近鄰演算法（二）

本章內容： K-近鄰分類演算法從文字檔案中解析和匯入資料使用matplotlib建立擴散圖歸一化數值 2-1 K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法優點：精度高、對異常

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

Python高階--K-近鄰演算法（KNN）

K nearest neighbour K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。優點：精度高、對異常值不敏感、無資料輸入假定。缺點：時間複雜度高、空間複雜度高。適用資料範圍：數值型和標稱型。一、K

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

K近鄰演算法（kNN）學習——kd樹

構造kd樹的過程我自己總結了一個口訣就是：“選擇中位數，一橫一豎” 構造平衡kd樹演算法輸入：k維空間資料集T={x1,x2,...,xN},其中xi=(x(1)i,x(2)i,...,x(k)i)，i=1,2...,N; 輸出kd樹。（1）分別基於輸入

K近鄰演算法（三）--kaggle競賽之Titanic

小白好難得會用python做第分類，實踐一下用於kaggle入門賽之泰坦尼克生還預測問題介紹：泰坦尼克電影大家都看過，大災難過後有些人生還了，有些人卻遭遇了不信，官方提供了1309名乘客的具體資訊以及提供了其中891名乘客的最後的存活情況，讓我們去預測另外418乘客的存活

k近鄰演算法（K-Nearest Neighbor）

相關推薦