機器學習使用交叉驗證為KNN調優引數

阿新 • • 發佈：2018-12-24

# KNN的距離演算法  使用的是歐氏距離  即算空間中點的距離 (根號下的 差的平方和)
# 要注意的是knn演算法是需要做 標準化處理的
# API:(引數:n_neighbors=5)預設使用5個鄰居  鄰居的數量對演算法的結果有影響 數量越大則要判斷的點越多
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 網格引數最優搜尋
from sklearn.model_selection import GridSearchCV


def knncls():
    data = pd.read_csv("./data/facebook/train.csv")
    #     處理資料
    print(data.head(10))
    # 縮小資料集
    # 使用query查詢資料篩選資料 輸入字串 用& 表示與
    data = data.query("x>1.0 & x<1.25 &y>2.5 & y <2.75")
    # 處理時間戳 轉換成年月日 時分秒
    # 呼叫pd.to_datatime() 可以吧時間戳轉換為時間年月日
    time_values = pd.to_datetime(data['time'])
    print(time_values)
    # 構造更多的特徵  年月都一致  不再使用年月
    # 獲取引數 使用打他timeindex
    time_values = pd.DatetimeIndex(time_values)
    data['day'] = time_values.day
    data['hour'] = time_values.hour
    data['weekday'] = time_values.weekday
    data['weekday'] = time_values.weekday
    # 刪除時間戳特徵
    # 第一個引數是一個列表  傳入要刪除的特徵lable  第二個引數表示軸 在sklearn裡邊0 代表列
    # 而在pandas裡邊 1 表示列
    data = data.drop(['time'], axis=1)
    print('*' * 100)
    print(data)
    # 簽到數 比較少的 篩選掉
    # 即簽到數量少於n
    place_count = data.groupby("place_id").count()
    tf = place_count[place_count.row_id > 3].reset_index()
    # 篩選在tf裡邊的place
    data = data[data['place_id'].isin(tf.place_id)]
    # 區分資料中的目標值 特徵值
    y = data['place_id']
    x = data.drop(['place_id'], axis=1)
    # 進行資料分割 (訓練集 測試集)
    # 引數說明 特徵值 目標值 測試集百分比
    # 注意返回順序
    X_train, X_test, Y_train, Y_test = train_test_split(x, y, 0.25)

    # 特徵工程 標準化(不做標準化 準確率大概在 3% )
    # 測試集 訓練集 的特徵值都需要標準化
    std = StandardScaler()
    X_train = std.fit_transform(X_train)
    # 不用再呼叫fit_transform 已經標準化了一次
    X_test = std.transform(X_test)
    # 標準化之後準確率大概為 40%

    # 進行演算法流程
    knn = KNeighborsClassifier()

    # 構造一些引數的值給它搜尋使用
    param = {"n_neighbors":[1,3,5,10]}
    # 網格引數優化
    gc = GridSearchCV(knn,param_grid=param,cv=2)
    # 輸入資料
    gc.fit(X_train, Y_train)
    # 得出預測結果(測試集)
    y_predict = gc.predict(X_test)
    print("在交叉驗證中最好的驗證結果\n",gc.best_score_)
    print("在交叉驗證中最好的模型",gc.best_estimator_)
    print("每個超引數每次交叉驗證的結果\n",gc.cv_results_)
    return None


if __name__ == '__main__':
    knncls()

機器學習使用交叉驗證為KNN調優引數

# KNN的距離演算法使用的是歐氏距離即算空間中點的距離 (根號下的差的平方和) # 要注意的是knn演算法是需要做標準化處理的 # API:(引數:n_neighbors=5)預設使用5個鄰居鄰居的數量對演算法的結果有影響數量越大則要判斷的點越多 from sklearn

機器學習--交叉驗證

轉自：交叉驗證（Cross validation)，有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉驗證是

機器學習-交叉驗證 : python資料集劃分

模型選擇的兩種方法：正則化（典型方法）、交叉驗證。這裡介紹交叉驗證及其python程式碼實現。交叉驗證如果給定樣本資料充足，進行模型選擇的一種簡單方法是隨機地將資料集切分為3部分，分為訓練集、驗證集和測試集。訓練集：訓練模型驗證集：模型的選擇測試集：最終對模型的評估在學習到不

機器學習交叉驗證

首先，要明確交叉驗證是什麼？有一點很明確，交叉驗證需要將資料集分為訓練集和驗證集（或者稱測試集），在訓練集上對模型訓練引數，在驗證集上看訓練出的模型的好壞。當資料比較少的時候，驗證集上的泛化誤差並不可靠，所以不能表明一個模型比另一個模型要好。交叉驗證通過劃分資料，確保效能

斯坦福大學機器學習——交叉驗證（Cross Validation）

假設我們需要從某些候選模型中選擇最適合某個學習問題的模型，我們該如何選擇？以多元迴歸模型為例：，應該如何確定k的大小，使得該模型對解決相應的分類問題最為有效？如何在偏倚（bias）和方差（variance）之間尋求最佳的平衡點？更進一步，我們同樣需要知道如何在加權迴歸模型中

用交叉驗證調整KNN模型的引數

import pandas as pd import matplotlib.pyplot as plt import numpy as np #載入資料 def inspect_data(file_root): dataframe=pd.read_csv(file_r

機器學習：驗證數據集與交叉驗證

問題：很好 oss 時有相對循環 val 超參數 mage # 問題：如果將所有的數據集都作為訓練數據集，則對於訓練出的模型是否發生了過擬合會不自知，因為過擬合情況下，模型在訓練數據集上的誤差非常的小，使人覺得模型效果很好，但實際上可能泛化能力不足； # 方案：將

機器學習實戰一（kNN）

.com block 個數 indices 操作來看空間計算機 python3 機器學習實戰一（kNN）跟著老師做一個項目，關於行車記錄儀識別前方車輛，並判斷車距，不太好做。本來是用OpenCV，做著做著，突然發現需要補習一下機器學習的內容。《機器學習實戰（mach

機器學習實戰第二章----KNN

BE 指定 cto 文件轉換 .sh ati subplot OS umt tile的使用方法 tile(A,n)的功能是把A數組重復n次（可以在列方向，也可以在行方向） argsort()函數 argsort()函數返回的是數組中值從大到小的索引值 dict.get()

機器學習（2） - KNN識別MNIST

min lose fse skip show turn ESS 行數 sna 代碼 https://github.com/s055523/MNISTTensorFlowSharp 數據的獲得數據可以由http://yann.lecun.com/exdb/mnist

python 機器學習中模型評估和調參

劃分 gif osi 最終 http 都沒有 select enume 沒有在做數據處理時，需要用到不同的手法，如特征標準化，主成分分析，等等會重復用到某些參數，sklearn中提供了管道，可以一次性的解決該問題先展示先通常的做法 import pandas as

深入理解Java虛擬機器總結一虛擬機器效能監控工具與效能調優(三)

深入理解Java虛擬機器總結一虛擬機器效能監控工具與效能調優(三) JDK的命令列工具 JDK的視覺化工具效能調優 JDK的命令列工具主要有以下幾種: jps (Java Process Status Tool): 虛擬機器程序

python 基於機器學習識別驗證碼

1、背景驗證碼自動識別在模擬登陸上使用的較為廣泛，一直有耳聞好多人在使用機器學習來識別驗證碼，最近因為剛好接觸這方面的知識，所以特定研究了一番。發現網上已有很多基於machine learning的驗證碼識別，本文主要參考幾位大牛的研究成果，集合自己的需求，進行改進、學習

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Java學習路線指南之JVM調優並解決OutOfMemoryError，StackOverflowError

JVM 調優，首先應從記憶體開始，尤其是在真正的的web服務部署的時候。因為真正的web服務會比開發的時候花費更多的記憶體，用來處理多使用者併發的情況。本人多次吃過這方面的虧，所以整理一下，希望能給別人以幫助。 &nb

機器學習——K-近鄰（KNN）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4702562.html 一 . K-近鄰演算法（KNN）概述最簡單最初級的分類器是將全部的訓練資料所對應的類別都記錄下來，當測試物件的屬性和某個訓練物件的屬性完全匹配時，便可以對其進

python中的numpy和pandas---機器學習實戰第一篇KNN

http://www.cnblogs.com/prpl/p/5537417.html 熟悉其基本操作 from numpy import * import operator def data(): datas = array([[1.0,1.1],[1.0,1.0],[0,0]

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優一、網格搜尋原理二、網格搜尋+交叉驗證用於多引數尋優的python實現 1、訓練模型及待尋優引數 2、直接迴圈巢狀實現網格搜尋 + cros

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優一、交叉驗證的意義二、常用的交叉驗證方法 1、Hold one method 2、K-flod CV 3、Leave-One-Ou

python機器學習應用mooc_(1)KNN

KNN 定義通過計算待分類資料點，與已有資料集中的所有資料點的距離。取距離最小的前k個點，根據“少數服從多數”的原則，將這個資料點劃分為出現次數最多的那個類別。 sklearn引數說明

機器學習 使用交叉驗證為KNN調優引數

相關推薦

機器學習使用交叉驗證為KNN調優引數