【機器學習】KNN基本介紹+程式碼實現

阿新 • • 發佈：2019-01-04

1.基本概念

k近鄰演算法：通過測量待預測點和已知點的特徵值之間的距離，選取前k個距離近的，根據多數表決的方法來分類。

訓練過程：無訓練過程。

測試過程：根據距離來分類。

k越小，模型越複雜，越容易過擬合。

需要對各個屬性（特徵）進行歸一化，防止數值較大的屬性對分類器的影響過大。

2. 優缺點

優點：精度高，異常值不敏感，對輸入格式無要求。

缺點：時間空間複雜度高。無法給出資料的基礎結構資訊，無法分析資料特徵。

適用資料範圍：標量和數值型。

3. 常用距離

樣本一：x = (x1, x2, ..., xn)

樣本二：y = (y1, y2, ..., yn)

歐氏距離： $L(x,y) = \sqrt{\sum (x_i - y_i)^2}$

曼哈頓距離： $L(x,y) = \sum |x_i - y_i|$

距離最大值： $L(x,y) =max |x_i - y_i|$

4. 程式碼實現

參考：《機器學習實戰》

原始碼地址以及資料：https://github.com/JieruZhang/MachineLearninginAction_src

手寫python KNN：

from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt

#處理文件
def file2mat(file):
    f = open(file)
    lines = f.readlines()
    nums = len(lines)
    mat = zeros((nums,3))
    classes = []
    index = 0
    for line in lines:
        line = line.strip()
        line = line.split('\t')
        mat[index,:] = line[0:3]
        classes.append(int(line[-1]))
        index += 1
    return mat, classes

#歸一化：由於各個種類特徵的數字差異大，例如屬性1是百級的，屬性2是小數級的，則屬性1對距離的影響大。為了使各個特徵之間重要性相同，需要歸一化。
#歸一化方法：new = (old - min)/(max-min),使分佈到0和1之間。
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet, ranges, minVals

#分類，計算距離
def classifyKNN(test, dataSet, labels, k):
    size = dataSet.shape[0]
    #計算距離
    distance = (((tile(test, (size,1)) - dataSet)**2).sum(axis=1))**0.5
    #距離由短到長排序, 將對應的index存入列表
    sortIndices = distance.argsort()
    #找到前k個最近的樣本對應的類別
    classCount = {}
    for i in range(k):
        label = labels[sortIndices[i]]
        #get() 函式返回指定鍵的值，如果值不在字典中返回預設值。
        classCount[label] = classCount.get(label,0) + 1
    #將前k個classCount按照value的大小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True)
    #返回最大的標籤數目對應的標籤
    return sortedClassCount[0][0]

#測試
def test():
    ratio = 0.1
    mat, labels = file2mat('datingTestSet.txt')
    normMat, ranges, minVals = autoNorm(mat)
    m = normMat.shape[0]
    numTest = int(m*ratio)
    errorCount = 0.0
    for i in range(numTest):
        res = classifyKNN(normMat[i,:], normMat[numTest:m,:], labels[numTest:m],3)
        if res != labels[i]:
            errorCount += 1
    print('error rate: %f' % (errorCount/float(numTest)))

datingMat, datingLabels = file2mat('datingTestSet.txt')
normMat, ranges, minVals = autoNorm(datingMat)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingMat[:,1], datingMat[:,2], 15.0*array(datingLabels), 15.0*array(datingLabels))
plt.show()

test()

sklearn 實現：

from sklearn.neighbors import KNeighborsClassifier
import numpy as np
def sklearnKNN():
    ratio = 0.1
    mat, labels = file2mat('datingTestSet.txt')
    normMat, ranges, minVals = autoNorm(mat)
    m = normMat.shape[0]
    numTest = int(m*ratio)
    train_mat = normMat[numTest:m,:]
    test_mat = normMat[0:numTest,:]
    train_labels = labels[numTest:m]
    test_labels = labels[0:numTest]
    knn = KNeighborsClassifier(n_neighbors = 3)
    knn.fit(train_mat, train_labels)
    print('error rate is : ', 1 - knn.score(test_mat, test_labels))

sklearnKNN()

【機器學習】KNN基本介紹+程式碼實現

1.基本概念 k近鄰演算法：通過測量待預測點和已知點的特徵值之間的距離，選取前k個距離近的，根據多數表決的方法來分類。訓練過程：無訓練過程。測試過程：根據距離來分類。 k越小，模型越複雜，越容易過擬合。需要對各個屬性（特徵）進行歸一化，防止數值較大的屬性對分類器的影響過

【機器學習】SVM基礎知識+程式碼實現

1. 基本知識二分類：通過分離超平面對資料點進行分類，訓練分離超平面。原理：最大化支援向量到分離超平面的距離。支援向量：離分離超平面最近的點。 2. 完全線性可分（硬間隔） 2.1 SVM基本型分離超平面：。（訓練中更新w和b，或alpha，使得分離超

【機器學習】感知機Python程式碼實現

回顧感知機前面我們介紹了感知機，它是一個二分類的線性分類器，輸入為特徵向量，輸出為例項的類別。感知機演算法利用隨機梯度下降法對基於誤分類的損失函式進行最優化求解，得到感知機模型，即求解w,bw,b。感知機演算法簡單易於實現，那麼我們如何通過python程

【機器學習】KNN及程式碼實戰

一、KNN分類思想二、例子一 1.情景如下圖，這裡共有四個點，兩個B類，兩個A類。[1,1.1]-A 、[1,1]-A 、[0,0]-B 、[0,0.1]-B。現在我們輸入點[0,0]，要求KNN分類器幫我們分類，判斷點[0,0]是A類

【機器學習】使用gensim 的 doc2vec 實現文本相似度檢測

評估 sum ref txt imp uil archive 自然語言 htm 環境 Python3， gensim，jieba，numpy ，pandas 原理：文章轉成向量，然後在計算兩個向量的余弦值。 Gensim gensim是一個python的自然語言處理庫，能

【深度學習】ResNet解讀及程式碼實現

簡介 ResNet是何凱明大神在2015年提出的一種網路結構，獲得了ILSVRC-2015分類任務的第一名，同時在ImageNet detection，ImageNet localization，COCO detection和COCO segmentation等任務中均獲得了第一名，在當

機器學習之KNN原理與程式碼實現

KNN原理與程式碼實現 KNN原理 KNN（k-Nearest Neighbour）：K-近鄰演算法，主要思想可以歸結為一個成語：物以類聚工作原理給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的 k （k

【機器學習】分類決策樹基本介紹+程式碼實現

參考：https://blog.csdn.net/u012351768/article/details/73469813 1.基礎知識基於特徵對例項進行分類。優點：複雜度低，輸出結果易於理解，缺失中間值不敏感，可處理不相關特徵資料。缺點：過度匹配。適用資料型別：標稱和

【機器學習】樸素貝葉斯基本介紹+程式碼實現

1. 基本概念根據先驗概率和似然函式來求後驗概率。一般用於分類任務。先驗概率：似然函式：後驗概率：根據條件獨立性假設：目標函式：即求解使後驗概率最大的類。訓練過程：即求各個單詞的條件概率，和類別的先驗概率。測試過程：根

【機器學習】最近鄰演算法KNN原理、流程框圖、程式碼實現及優缺點

通過機器學習教學視訊，初識KNN演算法，對原理和演算法流程通過小應用進行Python實現，有了自己的一些理解。因此在此整理一下，既是對自己學習的階段性總結，也希望能和更多的朋友們共同交流學習相關演算法，如有不完善的地方歡迎批評指正。1、KNN演算法原理KNN，全稱k-Near

【機器學習】最容易實現的基於OpenCV的人臉檢測程式碼、檢測器及檢測效果

基於opencv自帶的人臉檢測模型，實現簡單的人臉檢測功能，可作為機器學習初學者練手使用。簡單易學，具體的方法及程式碼如下。 1、執行結果輸入原圖輸出結果 2、工程需要載入的opencv庫如下： 3、用到的人臉檢測器 4、具體實現程式碼 #

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

【機器學習】python第三方模組lda包呼叫程式碼

# coding=utf-8 # !/usr/bin/env python ''' 【資料來源樣例】詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 詞語8 詞語9 詞語1 詞語2 詞語3 詞語4 詞語5 詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 ……

【機器學習】Octave矩陣，向量的表示與基本操作

CS229中需要用到Octave來做，張量的儲存是必備的知識點，記錄一下備用： % The ; denotes we are going back to a new row. A = [1, 2, 3; 4, 5, 6; 7, 8, 9; 10, 11, 12] % Initial

【機器學習】線性迴歸+程式碼實現

參考：《機器學習實戰》原始碼地址以及資料：https://github.com/JieruZhang/MachineLearninginAction_src 1. 標準線性迴歸(LR) y

【機器學習】整合學習+程式碼實現

1. 概念與分類整合學習（ensemble learning）構建並結合多個學習器，先學習基學習器，再根據某種策略結合起來。結合可以是：①整合不同演算法；②整合同一演算法不同設定；③資料集分成多部分分給不同分類器的整合。分類：bagging， boosting 2

【機器學習】邏輯迴歸基礎知識+程式碼實現

1. 基本概念邏輯迴歸用於二分類，將對輸入的線性表示對映到0和1之間，輸出為label為1的概率。優點：實現代價低，可輸出分類概率。適用於資料線性不可分。缺點：容易欠擬合，分類精度可能不高，且僅限二分類。使用資料型別：數值型和標稱資料。邏輯迴歸本質也是線性迴歸，但是

【機器學習】CART分類決策樹+程式碼實現

1. 基礎知識 CART作為二叉決策樹，既可以分類，也可以迴歸。分類時：基尼指數最小化。迴歸時：平方誤差最小化。資料型別：標值型，連續型。連續型分類時採取“二分法”，取中間值進行左右子樹的劃分。 2. CART分類樹特徵A有N個取值，將每個取值作為分界點，將資料

【機器學習】整合學習(一)----基本思想和方法

整合學習可謂是機器學習中的大殺器，諸如GBDT(梯度提升樹)，RF(隨機森林)這些演算法都是用到了整合學習的思想。這一篇主要就是複習一下Boosting，Bagging和Stacking這三種方法和常用的結合策略。整合學習(Ensemble Learni

【機器學習】KNN基本介紹+程式碼實現

相關推薦