機器學習實戰——KNN演算法改進約會網站配對效果

阿新 • • 發佈：2018-12-26

背景：

將約會網站的人分為三種類型：不喜歡的，魅力一般的，極具魅力的，分別用數字1,2,3表示，這些是樣本的標籤。樣本特徵為，每年飛行里程，玩視訊遊戲佔百分比，每週消費冰淇淋公升數。

檔案格式如下：

首先要解析文字。程式碼如下：

def file2matrix(filename):
    fr=open(filename)
    arrayOLines=fr.readlines()
    numberOfLines=len(arrayOLines)#檔案的行數
    returnMat=zeros((numberOfLines,3))
    classLabelVector=[]
    index=0
    for line in arrayOLines:
        line=line.strip()#截取回車字元
        listFromLine=line.split('\t')#使用'\t'分割成元素列表
        returnMat[index,:]=listFromLine[0:3] #第index行 為listfromline前3個元素
        classLabelVector.append(int(listFromLine[-1])) #新增分類標籤
        index+=1
    return returnMat,classLabelVector

描繪散點圖

datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
fig=plt.figure() #建立一個圖形示例
ax=fig.add_subplot(111)#將畫布分成1行1列，並且畫在從左往右從上往下的第一塊
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels)) #描繪散點圖
plt.show()

這麼看來關係好像不大。。。

歸一化

通過下表可以看出，飛行里程數對計算結果的影響遠大於其他兩個。但是我們認為這三個對結果的影響應該是一樣的，那麼就應該歸一化數值。即把每個特徵的最小值最大值求出，最小值賦值為0，最大的賦值為1，其他的按比例進行計算。

def autoNorm(dataSet):
    minVals=dataSet.min(0)
    maxVals=dataSet.max(0)
    ranges=maxVals-minVals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minVals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

歸一化以後就可以使用k近鄰演算法了。

不過我們得留10%的資料進行測試，這些測試資料得是隨機的。

def datingClassTest():
    hoRatio=0.10 #10%測試
    datingDataMat,datingLabels=file2matrix('datingTestSet2.txt') #解析文字
    normMat,ranges,minVals=autoNorm(datingDataMat)#歸一化
    m=normMat.shape[0] #文字行數
    numTestVecs=int(m*hoRatio) #測試集的數量
    errorCount=0.0 #初始化錯誤的數量
    for i in range(numTestVecs):
        #訓練，四個引數分別為測試集，訓練集，標籤，k，第一個表示第i行全部資料，第二個為從測試集第一行到文字最後一行
        #第三個為測試集的標籤，k選取3
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],\
                                   datingLabels[numTestVecs:m],3) 
        print("the classifier came back with :%d,the real answer is :%d"\
              %(classifierResult,datingLabels[i])) #列印預測結果和真實值
        if(classifierResult!=datingLabels[i]):errorCount+=1.0 #如果錯了，錯誤數量+1
    print("the total error rate is:%f" %(errorCount/(float)(numTestVecs))) #計算錯誤率

執行結果：

構建完整可用系統：

#構建完整可用系統
def classifyPerson():
    resultList=['not at all','in small doses','in large doses'] #與1,2,3分別對應
    #輸入三個引數
    percentTats=float(input(\
        "percentage of time spent playing video games?")) 
    ffMiles=float(input("frequent filer miles earned per year?"))
    iceCream=float(input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals=autoNorm(datingDataMat)
    inArr=array([ffMiles,percentTats,iceCream]) 
    #測試集為輸入的，訓練集為整個文字
    classifierResult=classify0((inArr-\
                                minVals)/ranges,normMat,datingLabels,3)
    print("You will probably like this person:",\
          resultList[classifierResult-1])

執行結果：

總而言之感覺這個演算法好神奇的樣子，但是原理又並不是很難理解。

機器學習實戰——KNN演算法改進約會網站配對效果

背景：將約會網站的人分為三種類型：不喜歡的，魅力一般的，極具魅力的，分別用數字1,2,3表示，這些是樣本的標籤。樣本特徵為，每年飛行里程，玩視訊遊戲佔百分比，每週消費冰淇淋公升數。 &

機器學習實戰筆記——利用KNN演算法改進約會網站的配對效果

一、案例背景我的朋友海倫一直使用線上約會網站尋找合適自己的約會物件。儘管約會網站會推薦不同的人選，但她並不是喜歡每一個人。經過一番總結，她發現曾交往過三種類型的人：（1）不喜歡的人；（2）

機器學習實戰（第二篇）-k-近鄰演算法改進約會網站配對結果

前面幾篇中，我們學習了機器學習演算法中k-近鄰演算法，本章我們將使用該演算法進行改進約會網站配對結果的工作。首先我們先進入背景介紹：我的朋友海倫一直使用線上約會網站尋找適合自己的約會物件。儘管約會網站會推薦不同的人選，但她沒有從中找到喜歡的人。經過一番總

knn演算法例項-用knn演算法改進約會網站的配對效果

步驟： 1、收集資料 2、準備資料 3、分析資料 4、訓練演算法 5、測試演算法 6、使用演算法 1、本文使用的資料是海倫收集的約會資料，可以從 https://download.csdn.net/download/zuyuhuo6777/10627552下載。(dati

機器學習實戰——KNN演算法手寫數字識別

資料來源我們的文字是形如這樣的，每個數字都有很多txt檔案，TXT裡面是01數字，表示手寫數字的灰度圖。現在我們要用knn演算法實現數字識別。資料處理每個txt檔案都是32*32的0,1矩陣，如果要使用knn，那麼還得考慮行列關係，如果能把它拉開，只有一行，就可以不必考慮數字

機器學習實戰——KNN演算法預測電影型別

預測電影型別現有愛情片和動作片（不是愛情動作片，霧）的打鬥場面和接吻場面的次數統計，然後給出一個電影打鬥場面和接吻場面出現的次數，預測其型別。那麼如何預測呢？當然用KNN了。 &

機器學習實戰-KNN演算法實現及遇到的問題總結

最近在看《機器學習實戰》這本書，內容充實，重視實踐，很不錯，也很適合機器學習的入門。下面貼上用python編寫的KNN演算法程式碼，放在部落格裡安全啊~~我的電腦隨時都會崩潰的.... from numpy import * import operator from os

機器學習實戰--KNN 演算法筆記

原始碼部分： from numpy import * import operatordef createDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']ret

機器學習實戰—k近鄰演算法(kNN)02-改進約會網站的配對效果

示例：使用k-近鄰演算法改進約會網站的配對效果在約會網站上使用k-近鄰演算法： 1.收集資料：提供文字檔案。 2.準備資料：使用Python解析文字檔案。 3.分析資料：使用matplotlib畫二維擴散圖。 4.訓練演算法：此步驟不適用於k-近鄰演

機器學習實戰筆記2：使用K-近鄰演算法改進約會網站的配對效果

一背景在學習了上一節簡單的k-近鄰演算法實現後，這一篇文章講一下書中給出的一個例子，在約會網站上使用k-近鄰演算法： 1）收集資料：可以使用爬蟲進行資料的收集，也可以使用第三方提供的免費或收費的資料。一般來講，資料放在txt文字檔案中，按照一定的格式進行

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

機器學習實戰之使用k-鄰近演算法改進約會網站的配對效果

1 準備資料，從文字檔案中解析資料用到的資料是機器學習實戰書中datingTextSet2.txt 程式碼如下： from numpy import * def file2matrix(filname): fr=open(filname) arrayOLines

《機器學習實戰》第二章 2.2用k-近鄰演算法改進約會網站的配對效果

《機器學習實戰》系列部落格主要是實現並理解書中的程式碼，相當於讀書筆記了。畢竟實戰不能光看書。動手就能遇到許多奇奇怪怪的問題。博文比較粗糙，需結合書本。博主邊查邊學，水平有限，有問題的地方評論區請多指教。書中的程式碼和資料，網上有很多請自行下載。 KNN演算法

機器學習—使用k-近鄰演算法改進約會網站的配對效果

沒寫完先發出去，後面會修改QAQ python中zeros函式的用法用於建立矩陣將文字記錄轉化為numpy的解析程式 def file2matrix(filename): fr=open(filename) arrayOLines

機器學習實戰——改進約會網站匹配效果

接上文，改進約會網站的匹配效果，資料集有四列，分別為：飛行時間，玩遊戲時間，冰淇淋消費，是否為感興趣的約會物件。其中是否為感興趣的約會物件分為三類：不感興趣，有點感興趣和非常感興趣。 def file2matrix(filename): #讀入文字記錄 fr =

【機器學習實戰-kNN：約會網站約友分類】python3實現-書本知識【2】

# coding=utf-8 # kNN-約會網站約友分類 from numpy import * import matplotlib.pyplot as plt import matplotlib.font_manager as font import operator # 【1】獲取資料 def in

機器學習實戰----kNN近鄰演算法問題記錄

1.import kNN。報錯：only 2 non-keyword arguments accepted 原因：group =array([1.0,1.1],[1.0,1.0],[0,0],[0,0.1]) 粗心少寫了兩個中括號正確寫法: group=array([

使用k-近鄰演算法改進約會網站的配對效果--學習筆記（python3版本）

本文取自《機器學習實戰》第二章，原始為python2實現，現將程式碼移植到python3，且原始程式碼非常整潔，所以這本書的程式碼很值得學習一下。 k-近鄰演算法概述工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中

學習筆記：使用k-近鄰演算法改進約會網站的配對效果

# name="code" class="python"># -*- coding: UTF-8 -*- from numpy import * import operator import matplotlib.pyplot as plt def file2mat

Python機器學習實戰kNN分類演算法

自學《機器學習實戰》一書，書中的程式碼親自敲一遍，努力搞懂每句程式碼的含義：今天將第一章kNN分類演算法的筆記總結一下。 # -*- coding: utf-8 -*- """ k-近鄰演算法小結: k-近鄰演算法是基於例項的學習，k-近鄰演算法必須儲存全部資料集，

機器學習實戰——KNN演算法改進約會網站配對效果

背景：

描繪散點圖

歸一化

相關推薦