《機器學習實戰》第二章，KNN演算法在jupyter中實驗

阿新 • • 發佈：2019-01-02

1、首先在jupyter中New一個Untitle.ipynb，然後將它重新命名為kNN.py，接著在kNN.py中輸入一下程式碼(課本程式碼)：

注：以下程式碼中，存在我自己的測試資料檔案的路徑，你們要改為自己測試資料檔案的路徑

from numpy import *

import operator


def createDataSet():

    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels = ['A','A','B','B']

    return group, labels



def classify0(inX, dataSet, labels, k):  
    dataSetSize = dataSet.shape[0]  
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet   
    sqdiffMat = diffMat**2  
    sqdistance = sqdiffMat.sum(axis=1)  
    #print(sqdistance)  
    distance = sqdistance**0.5  
    sortedDistIndex = distance.argsort()  
    classCount = {}  
    for i in range(k):  
        voteIlabel = labels[sortedDistIndex[i]]  
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1  
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  
    return sortedClassCount[0][0]

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = zeros((numberOfLines,3))
    classLabelVector = []
    index = 0 
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))
    return normDataSet, ranges, minVals

def datingClassTest():

    hoRatio = 0.1
    datingDataMat,datingLabels = file2matrix('F:\Softwares\Python\datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print ("the classifier came back with: %d,the real answer is: %d"%(classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))

def classifyPerson():  
    resultList = ["not at all","in small does","in large does"]  
    percentTats = float(input("percentage of time spent playing video games?"))  
    ffMiles = float(input("frequent flier miles earned per year?"))  
    iceCream = float(input("liters of ice cream consumes per year?"))  
    datingDataMat,datingLabels = file2matrix('F:\Softwares\Python\datingTestSet2.txt')  
    normMat,ranges,minVals = autoNorm(datingDataMat)  
    inArr = array([ffMiles,percentTats,iceCream])  
    classifierResult = classify0(((inArr-minVals)/ranges),datingDataMat,datingLabels,3)  
    print("You will probably like this person:",resultList[classifierResult - 1])

def img2vector(filename):

    returnVect = zeros((1,1024))

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline()

        for j in range(32):

            returnVect[0,32*i+j] = int(lineStr[j])

    return returnVect

from os import listdir
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('F:/Softwares/Python/trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('F:/Softwares/Python/trainingDigits/%s' % fileNameStr)
    testFileList = listdir('F:/Softwares/Python/testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('F:/Softwares/Python/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr):errorCount += 1.0
    print ("\nthe total number of errors is: %d" % errorCount)
    print ("\nthe total error rate is: %f" % (errorCount/float(mTest)))

2、將測試資料檔案放在和kNN.py同一個目錄下。或者像我一樣，直接在程式碼中修改成自己的測試檔案路徑

注：還有幾處，自己注意修改

3、現在可以開始測試資料，在jupyter中再建立一個檔案，命名為testKNN.ipynb

《機器學習實戰》第二章，KNN演算法在jupyter中實驗

1、首先在jupyter中New一個Untitle.ipynb，然後將它重新命名為kNN.py，接著在kNN.py中輸入一下程式碼(課本程式碼)：注：以下程式碼中，存在我自己的測試資料檔案的路徑，你們要改為自己測試資料檔案的路徑from numpy import * imp

機器學習實戰第二章——學習KNN演算法，讀書筆記

K近鄰演算法（簡稱KNN）學習是一種常用的監督學習方法，給定測試樣本，基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本，然後基於這k個“鄰居”的資訊來進行預測。通常在分類任務中可以使用“投票法”，即

機器學習實戰第二章----KNN

BE 指定 cto 文件轉換 .sh ati subplot OS umt tile的使用方法 tile(A,n)的功能是把A數組重復n次（可以在列方向，也可以在行方向） argsort()函數 argsort()函數返回的是數組中值從大到小的索引值 dict.get()

機器學習實戰-第二章代碼+註釋-KNN

rep sdn odi als cti 元素集合 pre recv #-*- coding:utf-8 -*- #https://blog.csdn.net/fenfenmiao/article/details/52165472 from numpy import *

機器學習實戰第二章KNN（1）python程式碼及註釋

#coding=utf8 #KNN.py from numpy import * import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #我覺

機器學習實戰第二章記錄

第二章講的是K-鄰近演算法from numpy import*import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A',

機器學習基礎第二章預測演算法

1 一元線性迴歸 1.1 為什麼用迴歸圖1.1.1 Google的票房與搜尋量的關係圖1.1顯示的是Google釋出的電影的搜尋量與票房的關係。如何用歷史的資訊預測票房就是（線性）迴歸問題。 1.2 一元線性迴歸模型 1 數學描述圖

《機器學習》第二章概念學習和一般到特殊序

hang 描述兩個 str 依賴實例 sport 遊泳 win 《機器學習》第二章概念學習和一般到特殊序 2.1.簡介布爾函數一般形式：F(b1, b2, ..., bn)，其中 bi的定義域為{0,1}，F的值域為{0, 1}。在一般的定義域上的，取值在 {

機器學習實戰（十）Apriori演算法（關聯分析）

目錄 0. 前言 1. Apriori 演算法尋找頻繁項集 2. 從頻繁項集中挖掘關聯規則 3. 實戰案例 3.1. apriori演算法發現頻繁項集和關聯規則學習完機器學習實戰的Apriori，簡單的做個筆記。文中部分描述屬於

C++單刷《機器學習實戰》之一——k-近鄰演算法

數學系研二渣碩一枚，最早接觸機器學習還是在研究生一年級的模式識別課程上，發現大部分機器學習的書籍都是採用Python語言，當然Python在資料分析和矩陣計算方面確實會有很大的優勢，對於缺乏程式設計基礎又想要快速入門的同學，Python確實是首選。而從本系列開始，我將主要

KNN機器學習實戰（包含SKLearn--KNN 包的呼叫）

sklearn中KNN 的用法： # -*- coding: utf-8 -*- import numpy as np from sklearn import neighbors, datasets from sklearn.model_selection im

機器學習入門（1）--KNN演算法

KNN演算法是一種常用的監督學習方法。生活之中我們想要給一個未知的樣本歸類，通常就是尋找幾個相似事物進行對比。假如，某人看到一隻未知的貓，想知道其屬於什麼品種，往往會在腦海中尋找貓的資訊，當在腦海中發現短尾貓的形態特徵和這隻貓及其相似時，就認為這隻貓是一直短尾貓。 KN

機器學習實戰———k均值聚類演算法

問題：關於第九章list（）新增的問題 fltLine = list(map(float,curLine)) fltLine = map(float,curLine) 二者的區別在於加list（）輸出為數 [1.658985, 4.285136] [-3.453

吳恩達機器學習（第二章）----線性迴歸

線性迴歸要做的主要包含代價函式和梯度下降。一、基本解釋線性迴歸的過程其實就是我們在選擇好某個型別的函式之後去不斷的擬合現有的資料，那麼什麼情況下我們這個函式是最符合，最貼近我們這些資料的呢？就是在代價函式的值最小的時候。二、代價函式假設要擬合的函式是h(x)=

機器學習實戰（3）—— kNN實戰約會網站

機器學習實戰（3）—— kNN實戰約會網站老闆：小韓啊，別忘了去改進一下約會網站的配對效果。我：好嘞好嘞！馬上工作！！好了，又要開始一天的工作啦。接著上篇文章老闆佈置的任務，我們來看一下這次實戰的相關資訊。前言老闆的朋友，卡特琳娜一直在使用約會網站尋找適合自己的約會物件。儘管約

機器學習實戰-62:層次聚類演算法(Hierarchical Clustering)

機器學習實戰-62:層次聚類演算法機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：K均值聚類(K-Means)、層次聚類(Hie

《機器學習實戰》AdaBoost方法的演算法原理與程式實現

一、引言提升(boosting)方法是一種常用的統計學習方法，應用廣泛且有效，在分類問題中，它通過改變訓練樣本的權重，學習多個分類器，並將這些分類器進行線性組合，提高分類的效能。對於分類問題，給定一個訓練樣本集，比較粗糙的分類規則（弱分類器），要比精確分類規則（強分類器）容易

機器學習實戰（4）—— kNN實戰手寫識別系統

文章目錄 2.3.1 準備資料：將影象轉換為測試向量 2.3.2 使用k-近鄰演算法識別手寫數字 2.4 小結我：終於到週末了，可以休息一下了！！！來幾把LOL！！！（叮鈴…叮鈴…叮鈴…）我：喂，老闆啊？怎麼啦

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

機器學習實戰筆記2(k-近鄰演算法)

1：演算法簡單描述給定訓練資料樣本和標籤，對於某測試的一個樣本資料，選擇距離其最近的k個訓練樣本，這k個訓練樣本中所屬類別最多的類即為該測試樣本的預測標籤。簡稱kNN。通常k是不大於20的整數，這裡的距離一般是歐式距離。 2：python程式碼實現建立一個

《機器學習實戰》第二章，KNN演算法在jupyter中實驗

相關推薦