k-近鄰演算法改進約會網站的配對效果

阿新 • • 發佈：2018-12-29

在上一篇的基礎上增加如下程式碼：

'''
將文字記錄轉換到NumPy的解析程式
輸入為檔名字串
輸出為訓練樣本矩陣和類標籤向量
'''
def file2matrix(filename):
    fr = open(filename)
    arrayOLine = fr.readlines()  
    numberOfLines = len(arrayOLine)  #得到文字行數
    returnMat = zeros((numberOfLines, 3)) #建立以0填充的NumPy矩陣
    '''
    解析文字資料到列表，文字資料有4列，分別表示
    每年獲得的飛行常客里程數
    玩視訊遊戲所消耗的時間百分比
    每週消費的冰淇淋公升數
    標籤，以整型表示：不喜歡的人，魅力一般的人，極具魅力的人
    ''' 

    classLabelVector = []
    index = 0
    for line in arrayOLine:
        line = line.strip()  #strip，預設刪除空白符（包括'\n', '\r',  '\t',  ' ')
        listFromLine = line.split('\t')
        returnMat[index, :] = listFromLine[0: 3]  #選取前3個元素儲存到特徵矩陣
        classLabelVector.append(int(listFromLine[-1])) #-1表示最後一列元素，如果不用int(),將當做字串處理 

        index += 1
    return returnMat, classLabelVector


#歸一化特徵值
def autoNorm(dataSet):
    minVals = dataSet.min(0)  #存放每一列的最小值，min(0)引數0可以從列中選取最小值，而不是當前行最小值
    maxVals = dataSet.max(0)  #存放每一列的最大值
    ranges = maxVals - minVals #1 * 3 矩陣
    normDataSet = zeros(shape(dataSet))   #列
    m = dataSet.shape[0 
]      #行
    normDataSet = dataSet - tile(minVals, (m, 1))  #tile(A, (row, col))
    normDataSet = normDataSet/tile(ranges, (m, 1))
    return normDataSet, ranges, minVals


#分類器針對約會網站的測試程式碼
def dataingClassTest():
    hoRatio = 0.1
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)  #用於測試的資料條數
    errorCount = 0.0   #錯誤率
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],\
                                    datingLabels[numTestVecs:m], 3)
        print "the classifier came back with: %d, the real answer is: %d"\
              %(classifierResult, datingLabels[i])
        if(classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" %(errorCount/float(numTestVecs))

測試：

... ...
the classifier came back with: 3, the real answer is: 3
the classifier came back with: 2, the real answer is: 2
the classifier came back with: 1, the real answer is: 1
the classifier came back with: 3, the real answer is: 1
the total error rate is: 0.050000

錯誤率為5%
新增以下函式，進行預測

#約會網站預測函式
def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(raw_input("percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels, 3)
    print "You will probably like this person:", resultList[classifierResult-1]

>>> import KNN
>>> classifyPerson()
percentage of time spent playing video games?20
frequent flier miles earned per year?10000
liters of ice cream consumed per year?0.6
You will probably like this person: in large doses

機器學習實戰（第二篇）-k-近鄰演算法改進約會網站配對結果

前面幾篇中，我們學習了機器學習演算法中k-近鄰演算法，本章我們將使用該演算法進行改進約會網站配對結果的工作。首先我們先進入背景介紹：我的朋友海倫一直使用線上約會網站尋找適合自己的約會物件。儘管約會網站會推薦不同的人選，但她沒有從中找到喜歡的人。經過一番總

機器學習實戰筆記2：使用K-近鄰演算法改進約會網站的配對效果

一背景在學習了上一節簡單的k-近鄰演算法實現後，這一篇文章講一下書中給出的一個例子，在約會網站上使用k-近鄰演算法： 1）收集資料：可以使用爬蟲進行資料的收集，也可以使用第三方提供的免費或收費的資料。一般來講，資料放在txt文字檔案中，按照一定的格式進行

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

使用k-近鄰演算法改進約會網站的配對效果--學習筆記（python3版本）

本文取自《機器學習實戰》第二章，原始為python2實現，現將程式碼移植到python3，且原始程式碼非常整潔，所以這本書的程式碼很值得學習一下。 k-近鄰演算法概述工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中

k-近鄰演算法改進約會網站的配對效果

在上一篇的基礎上增加如下程式碼： ''' 將文字記錄轉換到NumPy的解析程式輸入為檔名字串輸出為訓練樣本矩陣和類標籤向量 ''' def file2matrix(filename): fr = open(filename) arrayOL

機器學習—使用k-近鄰演算法改進約會網站的配對效果

沒寫完先發出去，後面會修改QAQ python中zeros函式的用法用於建立矩陣將文字記錄轉化為numpy的解析程式 def file2matrix(filename): fr=open(filename) arrayOLines

學習筆記：使用k-近鄰演算法改進約會網站的配對效果

# name="code" class="python"># -*- coding: UTF-8 -*- from numpy import * import operator import matplotlib.pyplot as plt def file2mat

《機器學習實戰》第二章 2.2用k-近鄰演算法改進約會網站的配對效果

《機器學習實戰》系列部落格主要是實現並理解書中的程式碼，相當於讀書筆記了。畢竟實戰不能光看書。動手就能遇到許多奇奇怪怪的問題。博文比較粗糙，需結合書本。博主邊查邊學，水平有限，有問題的地方評論區請多指教。書中的程式碼和資料，網上有很多請自行下載。 KNN演算法

機器學習實戰——KNN演算法改進約會網站配對效果

背景：將約會網站的人分為三種類型：不喜歡的，魅力一般的，極具魅力的，分別用數字1,2,3表示，這些是樣本的標籤。樣本特徵為，每年飛行里程，玩視訊遊戲佔百分比，每週消費冰淇淋公升數。 &

機器學習實戰之使用k-鄰近演算法改進約會網站的配對效果

1 準備資料，從文字檔案中解析資料用到的資料是機器學習實戰書中datingTextSet2.txt 程式碼如下： from numpy import * def file2matrix(filname): fr=open(filname) arrayOLines

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

2、K-近鄰演算法之約會網站預測

k-近鄰演算法概述定義：簡單地說，k近鄰演算法採用測量不同特徵值之間的距離進行分類原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資

knn演算法例項-用knn演算法改進約會網站的配對效果

步驟： 1、收集資料 2、準備資料 3、分析資料 4、訓練演算法 5、測試演算法 6、使用演算法 1、本文使用的資料是海倫收集的約會資料，可以從 https://download.csdn.net/download/zuyuhuo6777/10627552下載。(dati

機器學習實戰筆記——利用KNN演算法改進約會網站的配對效果

一、案例背景我的朋友海倫一直使用線上約會網站尋找合適自己的約會物件。儘管約會網站會推薦不同的人選，但她並不是喜歡每一個人。經過一番總結，她發現曾交往過三種類型的人：（1）不喜歡的人；（2）

機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類

參考資料《機器學習實戰》，Machine Learning in Action，本文中簡稱MLiA 《機器學習》周志華，本文簡稱西瓜書《Web安全之機器學習》劉焱著，本文中簡稱WSML(Web Security in Machine Learning，

機器學習實戰——改進約會網站匹配效果

接上文，改進約會網站的匹配效果，資料集有四列，分別為：飛行時間，玩遊戲時間，冰淇淋消費，是否為感興趣的約會物件。其中是否為感興趣的約會物件分為三類：不感興趣，有點感興趣和非常感興趣。 def file2matrix(filename): #讀入文字記錄 fr =

機器學習實戰筆記-K近鄰演算法2(改進約會網站的配對效果)

案例二.：使用K-近鄰演算法改進約會網站的配對效果案例分析: 海倫收集的資料集有三類特徵，分別是每年獲得的飛行常客里程數、玩視訊遊戲所耗時間百分比、每週消費的冰淇淋公升數。我們需要將新資

機器學習實戰—k近鄰演算法(kNN)02-改進約會網站的配對效果

示例：使用k-近鄰演算法改進約會網站的配對效果在約會網站上使用k-近鄰演算法： 1.收集資料：提供文字檔案。 2.準備資料：使用Python解析文字檔案。 3.分析資料：使用matplotlib畫二維擴散圖。 4.訓練演算法：此步驟不適用於k-近鄰演

KNN演算法專案實戰——改進約會網站的配對效果

1 #-*- coding:utf-8 -*- 2 3 import matplotlib.lines as mlines 4 import matplotlib.pyplot as plt 5 import numpy as np 6 import matplotlib as m

機器學習實踐-k近鄰演算法-約會網站配對原始碼

原始碼如下： #-*- coding: utf-8 -*- from numpy import * import operator import pdb import matplotlib import matplotlib.pyplot as plt from mat

k-近鄰演算法改進約會網站的配對效果

相關推薦