[機器學習]kNN演算法python實現(例項:數字識別)

阿新 • • 發佈：2019-02-09

# 使用好任何機器學習演算法的前提是選好Features

from numpy import *
import operator
from os import listdir


def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]


def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels


def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals
   
def datingClassTest():
    hoRatio = 0.50      #hold out 10%
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount
    
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect


def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

[機器學習]kNN演算法python實現(例項:數字識別)

# 使用好任何機器學習演算法的前提是選好Featuresfrom numpy import * import operator from os import listdir def classify0(inX, dataSet, labels, k): data

【機器學習】使用python實現kNN演算法

kNN(k-nearest neighbor)是一種基本的分類與迴歸的演算法。這裡我們先只討論分類中的kNN演算法。 k鄰近演算法的輸入為例項的特徵向量，對對應於特徵空間中的點；輸出為例項的類別，可以取多類，k近鄰法是建設給定一個訓練資料集，其中的例項類別已定，分類時，對於

吳裕雄 python 機器學習-KNN演算法（1）

import numpy as np import operator as op from os import listdir def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

機器學習入門之python實現圖片簡單分類

numbers org 路徑圖片分類 jpg animal 入門 res windows 小任務：實現圖片分類 1.圖片素材 python批量壓縮jpg圖片: PIL庫 resize http://blog.csdn.net/u012234115/article/

機器學習——KNN演算法以及案例預測入住位置

ķ最近鄰 KNN分類演算法其核心思想是假定所有的資料物件都對應於Ñ維空間中的點，如果一個數據物件在特徵空間中的ķ個最相鄰物件中的大多數屬於某一個類別，則該物件也屬於這個類別，並具有這個類別上樣本的特性.KNN方法在進行類別決策時，只與極少量的相鄰樣本有關。定義：如果一個樣本在特徵空間中的ķ

機器學習 KNN演算法原理

K近鄰(K-nearst neighbors,KNN)是一種基本的機器學習演算法,所謂k近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。比如：判斷一個人的人品，只需要觀察與他來往最密切的幾個人的人品好壞就可以得出，即“近朱者赤，近墨者黑”；KNN演算法既可以應用於分類應用中，也

機器學習實戰，Python實現

機器學習實戰，Python實現連結：http://ailearning.apachecn.org/ 關注微信公眾號“深度學習演算法社群”，獲取更多的學習資料！

吳恩達機器學習邏輯迴歸python實現（未正則化）[對應ex2-ex2data2.txt資料集]

寫在前面： 1.筆記重點是python程式碼實現，不敘述如何推導。參考本篇筆記前，要有邏輯迴歸的基礎（熟悉代價函式、梯度下降、矩陣運算和python等知識），沒有基礎的同學可通過網易雲課堂上吳恩達老師的機器學習課程學習。網上也有一些對吳恩達老師課後作業的python實現，大多數都是用

吳恩達機器學習邏輯迴歸python實現[對應ex2-ex2data1.txt資料集]

研一學生，初學機器學習，重心放在應用，弱化公式推導，能力有限，文中難免會有錯誤，懇請指正！QQ:245770710 此文是對網易雲課堂上吳恩達老師的機器學習課程邏輯迴歸一章對應的課後作業的python實現。 1. 先對資料集進行觀察，使用matplotlib將資料集繪製出散點圖。

機器學習KNN演算法

轉載請註明作者和出處：http://blog.csdn.net/c406495762 執行平臺： Windows Python版本：

機器學習實戰筆記(Python實現)-00-readme

近期學習機器學習，找到一本不錯的教材《機器學習實戰》。特此做這份學習筆記，以供日後翻閱。機器學習演算法分為有監督學習和無監督學習。這本書前兩部分介紹的是有監督學習，第三部分介紹的是無監督學習（也稱聚類）。有監督學習有兩種功能，一種是分類（本書第一部分介紹），一種是迴歸預測

【專欄】- 機器學習理論與Python實現

機器學習理論與Python實現注重理論與實踐的結合。從演算法原理出發，由淺入深，詳細介紹演算法的理論，並配合目前流行的Python語言，實現每一個演算法，以加強對機器學習演算法理論的理解、增強實際的演算法實踐能力，最終達到熟練掌

【人工智慧】利用C語言實現KNN演算法進行手寫數字識別

KNN演算法稱為鄰近演算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類演算法。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。kNN演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類

Andrew Ng 機器學習課程的Python實現

完全用Python完成吳恩達的機器學習課程是怎樣一種體驗？本文作者表示：完全可以！而且你不需要成

機器學習 -- kNN演算法

K近鄰演算法什麼是K近鄰演算法何謂K近鄰演算法，即K-Nearest Neighbor algorithm，簡稱KNN演算法。單從名字來猜想，可以簡單的認為：K個最近的鄰居。當K=1時，演算法便成了尋找最近的那個鄰居。用官方的話來說，所

【機器學習算法-python實現】svm支持向量機(3)—核函數

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

機器學習-KNN演算法

一、演算法介紹　　KNN演算法中文名稱叫做K近鄰演算法，是眾多機器學習演算法裡面最基礎入門的演算法。它是一個有監督的機器學習演算法，既可以用來做分類任務也可以用來做迴歸任務。KNN演算法的核心思想是未標記的樣本的類別，由距離他最近的K個鄰居投票來決定。下面我們來看個例子加深理解一下：　　如上圖所描述張三

[機器學習]kNN演算法python實現(例項:數字識別)

相關推薦