機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

阿新 • • 發佈：2018-11-12

K-近鄰演算法概述

簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類

K-近鄰演算法

優點：精度高、對異常值不敏感、無資料輸入假定。

缺點：計算複雜度高、空間複雜度高。

適用範圍：數值型和標稱型。

k-近鄰演算法的一般流程

收集資料:可使用任何方法
準備資料：距離計算所需要的數值，最好是結構化的資料格式。
分析資料：可以使用任何方法。
訓練演算法：此步驟不適用於K-近鄰演算法
使用演算法：首先需要輸入樣本資料和節後話的輸出結果，然後執行k-近鄰演算法判定輸入資料分別屬於哪個分類，最後應用對計算出的分類執行後續的處理

#kNN分類器
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]  #得到資料總量
    diffMat = tile(inX,(dataSetSize,1)) - dataSet #將輸入資料擴充成與資料集同樣大小的矩陣並作差
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1) #axis = 1 引數是維度引數等於1在此處表示將一個矩陣的每一行向量相加
    distances = sqDistances** 0.5
    sortedDistancesIndicies  
= distances .argsort() #將列表值進行對比返回一個按照數值升序的下標值
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistancesIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
        #dict.get("key") 返回value  dict.get("key",default= None)如果能找到就返回對應的value找不到返回預設值
    sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse=True)
     
#sorted 返回一個list  operator.itemgetter(x,y)表示根據x+1維度的第y+1維度
    return sortedClassCount[0][0]

K-近鄰演算法在約會網站改進的應用

在約會網站上使用K-近鄰演算法

（1）收集資料：提供文字檔案。

（2）準備資料：使用python解析文字檔案。

（3）分析資料：使用Matplotlib繪畫二維擴充套件圖。

（4）訓練演算法：此步驟不適用於K-近鄰演算法。

（5）測試演算法：使用提供的部分資料作為測試樣本。

測試樣本和非測試樣本的區別在於：測試樣本是已經完成分類的資料，如果預測分類與實際不同，則標記為一個錯誤。

（6）使用方法：產生簡單的命令列程式，然後可以輸入一些特徵資料以判斷對方是否為自己喜歡的型別

準備資料：從文字檔案中解析資料

提供的文字檔案datingTestSet2.txt中，每個樣本資料佔一行，總共有1000行。主要包括以下特徵：

1.每年獲得的飛行常客里程數

2.玩視訊遊戲所耗時間百分比

3.每週消費的冰淇淋公升數

將上述特徵資料輸入到分類器前，必須將待處理資料的格式改變為分類器可以接受的格式。建立名為file2matrix的函式，以此來處理格式問題。函式的輸入為檔名，輸出為訓練樣本和類標籤向量。

# Author：Thomas Wang
from numpy import *
def file2matrix(filename):
    with open(filename,'r') as fr:
        arrayOLines = fr.readlines()
        numberOfLines = len(arrayOLines)#儲存檔案資料數目
        returnMat = zeros((numberOfLines,3))#準備接收資料的numpy陣列
        classLabelVector = []#準備接收標籤向量的陣列python列表
        index = 0
        for line in arrayOLines:
            line = line.strip() #截去每行的回車
            listFromLine = line.split('\t')#以‘\t’為分隔符將字串擷取成字串陣列
            returnMat[index,:] = listFromLine[0:3]  #[index,:] = [index][:] 將字串陣列賦值給numpy陣列自動轉換為浮點型
            classLabelVector.append(int(listFromLine[-1]))
            index +=1
        return returnMat,classLabelVector

需要注意的是：

1、numpy陣列中[index,:] 與python 列表中[index][:] 作用相同

2、numpy函式庫可以自動解決變數值問題，而python並不可以必須明確告訴直譯器才可以處理

通過以下命令檢視資料內容

datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
print(datingDataMat)
print(datingLabels[0:20])

[[4.0920000e+04 8.3269760e+00 9.5395200e-01]
 [1.4488000e+04 7.1534690e+00 1.6739040e+00]
 [2.6052000e+04 1.4418710e+00 8.0512400e-01]
 ...
 [2.6575000e+04 1.0650102e+01 8.6662700e-01]
 [4.8111000e+04 9.1345280e+00 7.2804500e-01]
 [4.3757000e+04 7.8826010e+00 1.3324460e+00]]
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3]

分析資料：使用Matplotlib建立散點圖

我們藉助Matplotlib可以讓我們對我們得到的資料更加直接的展示在我們的面前（具體的Matplotlib可以根據需要進行了解學習）

import matplotlib
import  matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,0],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels))
plt.show()

準備資料：歸一化數值

約會網站原始資料改進之後的樣本資料
	玩視訊遊戲所耗時間百分比	每年獲得的飛行常客里程數	每週消費的冰激凌公升數	樣本分類
1	0.8	400	0.5	1
2	12	134000	0.9	3
3	0	20000	1.1	2
4	67	32000	0.1	2

根據上表中樣本3和樣本4的資料，計算樣本3和樣本4之間的距離：

\[\sqrt {{{(0 - 67)}^2} + {{(20000 - 32000)}^2} + {{(1.1 - 0.1)}^2}} \]

我們可以發現，上面方程中數字差值最大的屬性對計算結果的影響最大，其中飛行常客里程數對計算結果的影響將遠遠大於其他兩個特徵值。所以，作為三個等權重的特徵值之一，飛行常客里程數不應該

如此嚴重的影響計算結果。

解決這種去不同範圍的特徵值是，我們常常採用的方法是將數值歸一化，如將取值範圍處理為0到1或者-1到1之間。我們可以用下式將任意取值範圍的特徵值轉化到0到1區間內的值：

newValue = (oldValue - min)/(max - min)

其中min和max是資料集中最小特徵值和最大特徵值。我們可以通過建構函式autoNorm()自動將數字特徵函式轉化到0到1之間。

def autoNorm(dataSet):
    minVals = dataSet.min(0) #Return the minimum along a given axis.
    maxVals = dataSet.max(0) #Return the maximum along a given axis.
    ranges = maxVals - minVals #取到特徵值最大最小值之間的範圍
    normDataSet = zeros(shape(dataSet)) 
    m = dataSet.shape[0] #取到資料量
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

測試演算法：作為完整程式驗證分類器

使用錯誤率來檢測分類器的效能，對於分類器來說，錯誤率就是分類器給出錯誤結果的次數初一測試資料的總數數值處於0到1之間。程式碼中需要定義一個計數器變數，每次分類器錯誤的分類資料，計數器

就加1，程式執行完成之後計數器的結果初一資料點總數即是錯誤率。需要注意的是訓練資料和測試資料都是按比例隨機取得。

#完整程式驗證分類器
def datingClassTest():
    hoRatio  = 0.1 #測試資料比例
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt') #文字檔案轉換成可以處理的矩陣
    normDataSet, ranges, minVals = autoNorm(datingDataMat) #將資料進行歸一化
    m = normDataSet.shape[0] #獲取資料總量
    numTestVecs = int(m * hoRatio) #獲取測試資料數量
    errorCount = 0.0 #錯誤資料個數計數器
    for i in range(numTestVecs):
        #對每個測試資料利用KNN演算法進行分類
        classifierResult = classify0(normDataSet[i,:],normDataSet[numTestVecs:m,:],datingLabels[numTestVecs:m],4)
        #列印預測結果與實際結果
        print("分類器結果：%s,真實結果：%s"%(classifierResult,datingLabels[i]))
        #計算總錯誤個數並計算錯誤率
        if (classifierResult != datingLabels[i]): errorCount+=1.0
    print("the total error rate is: %f"%(errorCount/float(numTestVecs)))
datingClassTest()

分類器結果：3,真實結果：3
分類器結果：2,真實結果：2
分類器結果：1,真實結果：1
......
分類器結果：2,真實結果：2
分類器結果：2,真實結果：1
分類器結果：1,真實結果：1
the total error rate is: 0.040000

我們可以改變datingClassTest內變數hoRatio和變數K的值，潔廁錯誤率是否會隨著變數的增加而增加。取決於分類演算法、資料集和程式設計，分類器的輸出結果可能會有很大的不同。

使用演算法：構建完整可用系統

資料已經在分類器上進行了測試，我們將給使用者一段小程式，通過使用者輸入的資訊。程式會給出符合使用者的預測值。

#完整可用系統
def classifyPerson():
    resultList = ['not at all','in small does','in large does']
    percetTats = float(input("玩視訊遊戲所耗時間百分比："))
    ffMiles = float(input("每年獲取的飛行常客里程數："))
    iceCream = float(input("每年消耗冰淇淋的公升數："))
    datingDataMat,datingLabels = file2matrix("datingTestSet2.txt")
    normMat,ranges,minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles,percetTats,iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,4)
    print("You probably like this person:",resultList[classifierResult-1])

這樣一個簡單可用的針對約會網站的完整可用系統就完成了，程式碼理解並不是很困難。

總結

第一篇部落格內容不會很詳盡，希望大家留言指導改進。本篇部落格通過一個簡單的約會網站預測例項入手，論述了一個機器學習演算法實踐從無到有的過程：準備資料--->分析資料--->準備資料:歸一化數值--->

測試演算法--->使用演算法。

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

機器學習實戰（一）k-近鄰演算法kNN（k-Nearest Neighbor）

目錄 0. 前言簡單案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言 k-近鄰演算法kNN（k-Neare

機器學習實戰（一）--k近鄰演算法

機器學習實戰（一）–k近鄰演算法最近在學習機器學習，順便做個記錄，一方面給自己加深印象，另一方面與大家共勉，希望能給大家一些幫助，我也是剛入門的新手，有不對的地方還請多多指教。我用的Python3.5，有些程式碼與書上不太一樣。程式清單2-1 k-近

Python3《機器學習實戰》01：k-近鄰演算法（完整程式碼及註釋）

執行平臺： Windows Python版本： Python3 IDE： Anaconda3 # -*- coding: utf-8 -*- """ Created on Sun Apr 29 20:32:03 2018 @author: Wang

《機器學習實戰》學習筆記一：K近鄰演算法

K近鄰演算法kNN演算法的原理：存在一個樣本資料集合，且每個樣本資料都有對應的標籤，即我們知道樣本集合中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集合中資料對應的特徵

《機器學習實戰》第二章——k-近鄰演算法——筆記

在看這一章的書之前，在網上跟著博主Jack-Cui的部落格學習過，非常推薦。部落格地址：http://blog.csdn.net/c406495762 《Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)》講述的非常細緻，文字幽默有趣，演算法細

機器學習實戰（一）k-近鄰kNN（k-Nearest Neighbor）

目錄 0. 前言 1. k-近鄰演算法kNN（k-Nearest Neighbor） 2. 實戰案例 2.1. 簡單案例 2.2. 約會網站案例 2.3. 手寫識別案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 1、匯入資料： #coding:gbk from numpy import * import operator de

機器學習實戰（2）—— k-近鄰演算法

老闆：來了，老弟！我：來了來了。老闆：今天你要去看看KNN了，然後我給你安排一個工作！我：好嘞！就是第二章嗎？老闆：對！去吧！可惡的老闆又給我安排任務了！《機器學習實戰》這本書中的第二章為我們介紹了K-近鄰演算法，這是本書中第一個機器學習演算法，它非常有效而且易於

《機器學習實戰》第二章——K-近鄰演算法

1.K-近鄰演算法（kNN）1.1K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型1.2KNN演算法原理存在一個樣本訓練資料集合，並且每

《機器學習實戰》——kNN（k近鄰演算法）

原作者寫的太好了，包括排版都特別整齊(其中有一個錯誤之處就是在約會網站配對效果判定的時候，列表順序不對，導致結果有誤，這裡我已做出修改）執行平臺： Windows Python版本： Python3.x IDE： Sublime text3一簡單k-近鄰演算法本文將

機器學習實戰筆記2：使用K-近鄰演算法改進約會網站的配對效果

一背景在學習了上一節簡單的k-近鄰演算法實現後，這一篇文章講一下書中給出的一個例子，在約會網站上使用k-近鄰演算法： 1）收集資料：可以使用爬蟲進行資料的收集，也可以使用第三方提供的免費或收費的資料。一般來講，資料放在txt文字檔案中，按照一定的格式進行

《機器學習實戰》學習筆記：k-近鄰演算法的兩個應用場景

之前學習了k-近鄰演算法的實現後，參考《機器學習實戰》中的例子進行了k-近鄰演算法的測驗，主要測試了針對約會網站和手寫識別系統的資料分類，這兩個測試使用的是《機器學習實戰》提供的資料集。在編寫函式前，需在.py檔案中新增以下內容： from numpy

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

機器學習實戰之第二章 k-近鄰算法

lifo -h 訓練數據 adl sdi 加載 erro orm 數據集第2章 k-近鄰算法 KNN 概述 k-近鄰（kNN, k-NearestNeighbor）算法主要是用來進行分類的. KNN 場景電影可以按照題材分類，那麽如何區分動作片和愛情片呢？

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

【2】機器學習之兄弟連：K近鄰和K-means

關鍵詞：從K近鄰到最近鄰，監督學習，資料帶lable，效率優化（從線性搜尋到kd樹搜尋），缺點是需要儲存所有資料，空間複雜度大。可以利用kd數來優化k-means演算法。學習了kNN和K-means演算法後，仔細分析比較了他們之間的異同以及應用場景總結成此文供讀者參

機器學習實踐-k近鄰演算法-約會網站配對原始碼

原始碼如下： #-*- coding: utf-8 -*- from numpy import * import operator import pdb import matplotlib import matplotlib.pyplot as plt from mat

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法

**轉載：**http://blog.csdn.net/c406495762執行平臺： WindowsPython版本： Python3.xIDE： Sublime text3 他的個人網站：http://cuijiahua.com 文章目錄

《機器學習實戰》筆記（一）：K-近鄰演算法

一、K-近鄰演算法 1.1 k-近鄰演算法簡介簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離的方法進行分類。 1.2 原理存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述

K-近鄰演算法在約會網站改進的應用

準備資料：從文字檔案中解析資料

分析資料：使用Matplotlib建立散點圖

準備資料：歸一化數值

測試演算法：作為完整程式驗證分類器

使用演算法：構建完整可用系統

總結

相關推薦