機器學習實戰：knn海倫約會

阿新 • • 發佈：2019-01-11

在這裡插入圖片描述

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import copy

def autoNorm(x):
    """
    最大值最小值歸一化
    :param x: 需要歸一化的特徵向量
    :return: 新的陣列、極差、最小值
    """
    assert isinstance(x,np.ndarray)

    minVals=x.min(axis=0)
    maxVals=x.max(axis=0)
    ranges= 
maxVals-minVals

    x_new=(x-minVals)/ranges # 廣播

    return x_new,ranges,minVals

def getdata_normal():
    """
    讀取原始文字資料
    :return:
    """
    fp="datingTestSet.txt"

    f=open(fp,mode='r')

    data=[line.strip().split('\t') for line in f.readlines()]
    data=np.array(data)

    x=data[: 
,:-1].astype(np.float)
    y=data[:,-1]

    f.close()

    # 視覺化特徵
    # labels=copy.deepcopy(y)
    # dic={"largeDoses": "r", "smallDoses": 'g', "didntLike": 'b'}
    # for k, v in dic.items():
    #     labels[labels==k]=v
    # plt.scatter(x[:, 0], x[:, 1], 10,labels)
    # plt.title(dic)
    # plt.show() 


    return x,y

def knnClaffify(testItem,trainX,trainY,k):
    """
    knn分類演算法，單條資料測試
    :param testItem: 測試的單條資料
    :param trainX: 訓練集特徵
    :param trainY: 訓練集標籤
    :param k: 鄰居個數
    :return: 分類類別
    """
    distances=np.sqrt(np.sum((trainX-testItem)**2,axis=1))

    ind=np.argsort(distances)

    classCount={}
    for i in range(k):
        vote=trainY[ind[i]]
        classCount[vote]=classCount.get(vote,0)+1
    classCount=sorted(classCount.items(),key=lambda x:x[0])

    return classCount[0][0]

def knnTest():
    """
    測試演算法
    :return:
    """
    x, y = getdata_normal()
    x, _, _ = autoNorm(x)

    total=len(x)
    splittest=int(0.9*total) # 分割訓練集和測試集,訓練集佔比0.8
    print("分割位置：{}，總數：{}".format(splittest,total))

    trueCount=0
    for i in range(splittest,total):
        result = knnClaffify(x[i], x[:splittest],y[:splittest],k=3)
        trueCount+=(y[i]==result)

    print("正確率：{2}({0}/{1})".format(trueCount,total-splittest,trueCount/(total-splittest)))

def knnForPerson():

    x, y = getdata_normal()
    x,ranges,minVals = autoNorm(x)

    t1 = float(input("每年旅行距離："))
    t2 = float(input("玩遊戲時間佔比："))
    t3 = float(input("每週吃的冰激凌："))

    item=(np.array([t1,t2,t3])-minVals)/ranges
    result=knnClaffify(item,x,y,k=3)
    print("predict: ",result)

if __name__ == '__main__':

    knnTest()
    knnForPerson()

機器學習實戰：knn海倫約會

資料github地址。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import copy def autoNorm(x): """ 最大值最小值歸一化

機器學習實戰：knn手寫數字

資料及程式碼github。 """ @author: lishihang @software: PyCharm @file: handwritten.py @time: 2018/11/26 16:18 """ import numpy as np import m

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼

下載：https://pan.baidu.com/s/1kNN4tDt58ckFoD_OWH5sGw 更多資料分享：http://blog.51cto.com/3215120 《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中文版PDF+高清英文版PDF+原始碼高清中文版PDF

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+源代碼

ESS alt mark 構建 image 機器學習實戰 dff com 化學下載：https://pan.baidu.com/s/1kNN4tDt58ckFoD_OWH5sGw 更多資料分享：http://blog.51cto.com/3215120 《機器學習實戰：基

機器學習實戰：智慧製造質量預測

一、資料清洗注意：pandas函式使用後一般是不對原表起作用的，要重新賦值對dataframe來說，bool運算any()、all()，預設沿axis=0反向，即沿著列初步清洗後從8209列到3074列 1.初步清洗去除重複列，注意可能會跨幾十列重合的，需要遍歷同一個工序

C++單刷《機器學習實戰》——kNN演算法完整程式碼

#include <iostream> #include <cmath> #include<map> #include<string> #include<sstream> #include<fstream> #include&l

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》+PDF+Aurelien

ext https oss 模型 img kit 復制 mage 更多下載：https://pan.baidu.com/s/127EzxtY9zdBU2vOfxEgIjQ 更多資料分享：http://blog.51cto.com/14087171 《機器學習實戰：基於Sc

機器學習實戰：用nodejs實現人臉識別

機器學習實戰：用nodejs實現人臉識別在本文中，我將向你展示如何使用face-recognition.js執行可靠的人臉檢測和識別。我曾經試圖找一個能夠精確識別人臉的Node.js庫，但是

機器學習實戰：支撐向量機

一、工作原理支撐向量機（Support Vector Machine）的核心問題為：針對不同類別進行分類時，如何尋找得到最大的分類間距通常採用超平面來對不同類別的資料進行分割，超平面方程為: wT X+b =0 支撐向量機的實現方法為：求取超平面方程

機器學習實戰：logistic迴歸--學習筆記

一、工作原理 1.每個迴歸係數初始化為 1 2.重複 R 次: 1. 計算整個資料集的梯度 2. 使用步長 x 梯度更新迴歸係數的向量 5.返回迴歸係數二、實現程式碼 1.基於梯度上升尋找邏輯迴歸引數

機器學習實戰：樸素貝葉斯--學習筆記

一、工作原理我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率，用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率; 那麼對於一個新資料點 (x,y)，可以用下面的規則來判斷它的類別：如果 p1(x,y)

機器學習實戰：K近鄰演算法--學習筆記

一、KNN的工作原理假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。 1）計算新資料與樣本資料集中每條資料的距離。 2）對求得的所有距離進

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼免費

下載：https://pan.baidu.com/s/191hQMWZYGhXtqZxbfqTDtw 《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中文版PDF+高清英文版PDF+原始碼免費下載高清中文版PDF，649頁，帶目錄和書籤，文字能夠複製貼上；高清英文版PDF

【機器學習實戰】knn演算法手寫

首先初始化資料 def createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]]) labels = ['A', 'A', 'B', 'B']

機器學習演算法：kNN(K-Nearest Neighbor)最鄰近規則分類

KNN最鄰近規則，主要應用領域是對未知事物的識別，即判斷未知事物屬於哪一類，判斷思想是，基於歐幾里得定理，判斷未知事物的特徵和哪一類已知事物的的特徵最接近； K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器

機器學習實戰之KNN演算法

前段時間在京東上購買了這本很多人都推薦的書---機器學習實戰。剛剛看完第一章，感覺本書很適合初學者，特別是對急於應用機器學習但又不想深究理論的小白（像我這樣的）。不過在這裡還是推薦一下李航老師的那本《統計學習方法》，該書注重理論推導及挖掘演算法背後的數學本質，和《機器

《機器學習實戰》—— KNN(K近鄰演算法)

《機器學習實戰》可以說是學習ML的必備書籍，連載本書中的重點演算法。重點在演算法和思想，避免涉及數學和理論推導。由於現在已經有現成的庫，不管是Sklearn還是keras，所以演算法基本不需要我們自己去寫，呼叫庫就可以，但是必須要知道如何要去調參，也就是每個

機器學習實戰：k-臨近演算法（二）

海倫一直在使用線上約會網站尋找合適自己的約會物件，經過一番總結，海倫整理了以下資料，希望我們的分類軟體可以更好地幫助她將匹配物件劃分到確切的分類中 1、收集資料 40920 8.326976 0.953952 largeDoses 14488 7.153469 1.673

機器學習實戰：決策樹-隱形眼鏡型別

程式碼及資料地址輸出結果 model: {‘tearRate’: {‘reduced’: ‘no lenses’, ‘normal’: {‘astigmatic’: {‘yes’: {‘prescript’: {‘hyper’: {‘age’: {‘presbyopic

機器學習實戰：決策樹-是否有魚

程式碼及資料地址輸出結果 model: {‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}} predict: [1, 1] yes 程式碼 """ @

機器學習實戰：knn海倫約會

相關推薦