K近鄰演算法

阿新 • • 發佈：2020-12-02

1.演算法描述

　　簡單的說，KNN演算法通過計算樣本特徵值之間的距離來進行分類。已知一系列帶標籤的資料集，通過計算未知樣本與資料集中樣本距離，並對距離進行排序，取距離最近的K個樣本的標籤，將未知樣本歸到距離最近的K個樣本相同的標籤中。

　　實現步驟：（1）計算已知類別的資料集中的點到當前未知點之間的距離；

　　　　　　　（2）按照距離升序排序

　　　　　　　（3）選擇與當前點距離最小的前k個點

　　　　　　　（4）這k個點大多數屬於哪個類，那麼未知點也屬於這個類

　　這裡的距離可以為：（1）歐式距離：（x,y是兩個樣本，x_i,y_i是兩個樣本歸一化後的特徵值，下式是計算的是兩個樣本之間的歐式距離）

　　　　　　　　　　　　（2）曼哈頓距離：

　　　　　　　　　　　　（3）......

2.實現過程

　　以改進約會網站匹配效果為例（資料集）

#使用KNN演算法改進約會網站的配對效果，資料集為1000*3，標籤為1000*1
#K-近鄰演算法：已知一系列帶標籤的資料集，通過計算未知樣本與資料集中樣本的歐式距離，
# 並對距離進行排序，取距離最近的K個樣本的標籤，將未知樣本歸到距離最近的K個樣本相同的標籤中
import numpy as np
import operator
#K-近鄰演算法
def classify0(inX,dataSet,labels,k):#inX:1*3; dataSet:1000*3; Labels:1000*1
    dataSetSize=dataSet.shape[0]#樣本資料集個數1000
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet#因為inX的大小與dataSetSize不一致，所以要進行陣列的賦值（延y軸）,將1*3延y軸為1000*3
    sqDiffMat=diffMat**2#對每個array陣列元素**2
    sqDistances=sqDiffMat.sum(axis=1)#按行求和
    distances=sqDistances**0.5
    sortedSqDistance=distances.argsort()
    classCount={}
    for i in range(k):
        voteILabel=labels[sortedSqDistance[i]]
        classCount[voteILabel]=classCount.get(voteILabel,0)+1
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
#將文字記錄轉化為numpy陣列
def file2matrix(filename):#filename檔案路徑
    fr=open(filename)
    arrayOLines=fr.readlines()#返回列表
    numbersOfLines=len(arrayOLines)#文字檔案行數，資料集資料個數
    returnMat=np.zeros((numbersOfLines,3))#3個特徵，資料集
    classLabelVector=[]#標籤集
    index=0
    for line in arrayOLines:
        line=line.strip()#去掉每行前後空格
        listFromLine=line.split('\t')#分割特徵
        returnMat[index,:]=listFromLine[0:3]#0，1，2
        if listFromLine[-1]=='largeDoses':
            classLabelVector.append(1)
        elif listFromLine[-1]=='smallDoses':
            classLabelVector.append(0)
        else:
            classLabelVector.append(-1)
        index+=1
    return returnMat,classLabelVector
#歸一化特徵值:在計算歐式距離的時候，數字差值最大的屬性對計算結果的影響最大，但是三個特徵的重要性是一樣的，所以要歸一化
def autoNorm(dataSet):#1000*3
    minValue=dataSet.min(0)#1*3
    maxValue = dataSet.max(0)#1*3
    ranges=maxValue-minValue#1*3
    normDataSet=np.zeros(np.shape(dataSet))#生成1000*3的全零矩陣
    m=np.shape(dataSet)[0]#1000
    normDataSet=dataSet-np.tile(minValue,(m,1))#沿y軸複製，延拓
    normDataSet=normDataSet/np.tile(ranges,(m,1))#對應位置，對應相除，1*3->1000*3
    return normDataSet,ranges,minValue
#測試
def datingClassTest():
    hoRatio=0.1#選擇10%的資料作為測試資料
    datingDataMax,datingDataLabels=file2matrix('E:\AI_Test\knn+dating\datingTestSet.txt')
    normDataSet,ranges,minValue=autoNorm(datingDataMax)
    m=int(np.shape(datingDataMax)[0])#資料集的大小
    numberOfTest=int(hoRatio*m)#測試集數目
    numberOfTrain=int(m-numberOfTest)#訓練集數量
    errorCount=0
    for i in range(numberOfTest):
        classifyResult=classify0(datingDataMax[i,:],datingDataMax[numberOfTest:m,:],datingDataLabels[numberOfTest:m],3)
        if classifyResult!=datingDataLabels[i]:
            errorCount+=1
        print("分類器分類標籤: %d,真實標籤 %d"%(classifyResult,datingDataLabels[i]))
    print("分類錯誤率： %f"%(errorCount/numberOfTest))
if __name__ == '__main__':
    datingClassTest()

3. sklearn實現

　　以鳶尾花分類為例。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
iris=datasets.load_iris()
x=iris.data
y=iris.target
print(iris.keys())
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)
knn=KNeighborsClassifier()
knn.fit(x_train,y_train)
acc=knn.score(x_test,y_test)
print('分類準確率為：%f'%acc)

數字加減法驗證碼識別使用K-近鄰演算法(KNN)

驗證碼如上所示 100*30 下面咱們開始神奇的旅程下載批量驗證碼圖片資料集用來訓練

機器學習：K近鄰演算法（KNN）

K近鄰演算法（KNN，K-NearestNeighbor）是機器學習或資料分析中最基礎、也是最簡單的演算法之一，這個演算法的思路就如同它字面上的意思“K個最近的鄰居”，想要得到某個樣本的某個特徵的值（一個樣本通常有多個特徵

GridSearchCV網格搜尋得到最佳超引數, 在K近鄰演算法中的應用

　　最近在學習機器學習中的K近鄰演算法,KNeighborsClassifier 看似簡單實則裡面有很多的引數配置, 這些引數直接影響到預測的準確率. 很自然的問題就是如何找到最優引數配置? 這就需要用到GridSearchCV 網格搜尋模型

k-近鄰演算法

from numpy import * import operator def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0]#獲取資料集的行數

python實現機器演算法之K近鄰演算法

特點這是一種變參模型，也叫做無參模型。和那些通過訓練改善引數，從而取損失函式最小值的引數模型不同

05-網格搜尋與k近鄰演算法中更多超引數

在上一篇部落格中介紹瞭如何使用網格搜尋的方式來尋找機器學習演算法中最好的超引數。不過我們網格搜尋的過程是使用自己寫的 for 迴圈，在這個過程中，我們發現對於一些超引數而言，它們是存在相互依賴

大資料機器學習（四）K-近鄰演算法

K-近鄰演算法（K-nearest neighbor，KNN）實質：找k個最近的鄰居，人多取勝（問題是k值該取多少怎麼確定）三個基本要素：

機器學習實戰之K-近鄰演算法

一、K-近鄰演算法概念 1、書上概念： K-近鄰演算法採用不同特徵值之間的距離的方法進行分類

Python-機器學習基礎-K近鄰演算法

K近鄰演算法簡介定義通俗來講，通過你的\"鄰居\"來判斷你屬於哪個類別計算你到\"鄰居\"的距離

07.k近鄰演算法kNN

1、將資料分為測試資料和預測資料 2、資料分為data和target，data是矩陣，target是向量

K近鄰演算法

1.演算法描述　　簡單的說，KNN演算法通過計算樣本特徵值之間的距離來進行分類。已知一系列帶標籤的資料集，通過計算未知樣本與資料集中樣本距離，並對距離進行排序，取距離最近的K個樣本的標籤，將未知樣本歸到距離

機器學習聽課 | K-近鄰演算法 | 05

目錄K-近鄰演算法簡介什麼是K-近鄰演算法K-近鄰演算法(KNN)概念電影型別分析K-近鄰演算法api初步使用機器學習流程複習Scikit-learn工具介紹安裝Scikit-learn包含的內容K-近鄰演算法API案例步驟分析程式碼過程小結問題

01 K近鄰演算法

K近鄰演算法採用測量不同特徵值之間的距離方法進行分類優點：精讀高，對異常值不敏感，無資料輸入假定

【python】KNN(K近鄰演算法)實現及視覺化

技術標籤：Pythonpython機器學習文章目錄 KNN(K近鄰演算法)實現及視覺化1 演算法描述：2 KNN演算法的Python實現：2.1 實踐問題背景：2.2 目標：2.3 資料集：2.4 要求：2.5 實施步驟：

python實現k-近鄰演算法

技術標籤：機器學習python機器學習本文不涉及k-近鄰演算法的原理，只通過python程式碼實現演算法，並且沒有用到機器學習庫，根據演算法流程一步一步實現。

2.3測試演算法：使用k-近鄰演算法識別手寫數字

1 #將每個32*32影象陣列轉為1*1024特徵值陣列 2 def img2vector(filename): 3returnVect = zeros((1,1024))#初始化returnVect為1行1024列的全零陣列

K-近鄰演算法的Sklearn完整復現

1. 演算法原理核心思想：未標記樣本的類別，由距離其最近的k個鄰居投票來決定。

5 K-近鄰演算法實現鳶尾花種類預測

1 再識K-近鄰演算法API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=\'auto\') n_neighbors：

python機器學習——KNN（K近鄰演算法）

背景與原理： KNN演算法其實是邏輯最簡單的分類演算法——我們認為一個數據的型別是由與其最接近的資料決定的，而“接近”實際上就是我們度量兩個資料點之間的距離，如果我們把一組資料看做一個向量$(x_{1},...,x_{n

K-近鄰演算法（KNN）概述

最簡單最初級的分類器是將全部的訓練資料所對應的類別都記錄下來，當測試物件的屬性和某個訓練物件的屬性完全匹配時，便可以對其進行分類。但是怎麼可能所有測試物件都會找到與之完全匹配的訓練物件呢，其次就是存在

K近鄰演算法

相關推薦