sklearn庫學習之K-NN演算法

阿新 • • 發佈：2018-10-31

k近鄰分類與k近鄰迴歸

import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import mglearn
import numpy as np
#############
X,y = mglearn.datasets.make_forge()
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 0)
clf = KNeighborsClassifier(n_neighbors = 3)
clf.fit(X_train,y_train)

print("Test set predictions:{}".format(clf.predict(X_test)))
print("Test set accuracy:{:.2f}".format(clf.score(X_test,y_test)))

fig, axes = plt.subplots(1,3,figsize = (10,3))
for n_neighbors,ax in zip([1,3,9],axes):
    clf = KNeighborsClassifier(n_neighbors = n_neighbors).fit(X,y)
    #畫圖，決策邊界視覺化
    mglearn.plots.plot_2d_separator(clf,X,fill = True, eps = 0.5,ax = ax, alpha = 0.4)
    mglearn.discrete_scatter(X[:,0],X[:,1],y,ax = ax)#標點
    
    ax.set_title("{} neighbor(s)".format(n_neighbors))
    ax.set_xlabel("feature 0")
    ax.set_ylabel("feature 1")
    ax.legend(loc = 3)

#############
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
X_train,X_test,y_train,y_test = train_test_split(
    cancer.data,cancer.target,stratify = cancer.target,random_state = 66)
training_accuracy = []
test_accuracy = []
neighbors_settings = range(1,11)

for n_neighbors in neighbors_settings:
    clf = KNeighborsClassifier(n_neighbors = n_neighbors)
    clf.fit(X_train,y_train)
    training_accuracy.append(clf.score(X_train,y_train))
    test_accuracy.append(clf.score(X_test,y_test))

fig, ax = plt.subplots(1,1,figsize = (10,6))
plt.plot(neighbors_settings,training_accuracy, label = "training accuracy")
plt.plot(neighbors_settings,test_accuracy, label = 'test accuracy')
plt.xlabel("n_neighbors")
plt.ylabel("Accuracy")
plt.legend()

##########
X,y = mglearn.datasets.make_wave(n_samples=40)
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 0)

fig,axes = plt.subplots(1,3,figsize=(15,4))
line = np.linspace(-3,3,1000).reshape(-1,1)
for n_neighbors,ax in zip([1,3,9],axes):
    reg = KNeighborsRegressor(n_neighbors = n_neighbors)
    reg.fit(X_train,y_train)
    
    print("Test set predictions:{}".format(reg.predict(X_test)))
    print("Test set accuracy:{:.2f}".format(reg.score(X_test,y_test)))

    ax.plot(line,reg.predict(line))
    
    ax.plot(X_train,y_train,'^',c = mglearn.cm2(0),markersize = 8)
    ax.plot(X_test,y_test,'.',c = mglearn.cm2(1),markersize = 8)
    
    ax.set_title("{}neighbor(s)\n train score:{:.2f} test score:{:.2f}".format(
    n_neighbors,reg.score(X_train,y_train),reg.score(X_test,y_test)))
    ax.set_xlabel('Feature')
    ax.set_ylabel('Target')
    ax.legend(['Model predictions','Training data/target','Test data/target'],loc = 'best')

對於程式碼中函式用法的疑惑

python中關於圖例legend在圖外的畫法簡析
https://blog.csdn.net/yywan1314520/article/details/53740001/
[python] pandas plot( )畫圖命令總結
https://blog.csdn.net/u013084616/article/details/79064408
Python之matplotlib基礎
https://www.cnblogs.com/liutongqing/p/6985805.html
tensorflow的reshape操作tf.reshape()
https://blog.csdn.net/m0_37592397/article/details/78695318
numpy.linspace使用詳解
https://blog.csdn.net/you_are_my_dream/article/details/53493752
fig,ax = plt.subplots()的理解
https://www.jianshu.com/p/decf22446316
train_test_split用法
https://blog.csdn.net/mrxjh/article/details/78481578
make_blobs聚類資料生成器
https://blog.csdn.net/kevinelstri/article/details/52622960
sklearn提供的自帶的資料集

https://www.cnblogs.com/nolonely/p/6980160.html
Python DeprecationWarning 型別錯誤
https://blog.csdn.net/qq_38734403/article/details/79779713

sklearn庫學習之K-NN演算法

k近鄰分類與k近鄰迴歸 import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsRegressor from sklearn.neighbors import KNeighborsClassifier

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

sklearn庫學習之線性模型

線性模型利用輸入特徵的線性函式進行預測，學習線性模型的演算法的區別： (1)係數和截距的特定組合對訓練資料擬合好壞的度量方法，不同的演算法使用不同的方法度量“對訓練集擬合好壞”–稱為損失函式 (2)是否使用正則化，使用哪種正則化方法線性模型的主要引數是正則化引數，如果假定只有幾個特徵是

sklearn庫學習之決策樹

決策樹學習決策樹，就是學習一系列if/else問題，在機器學習中，這些問題叫做測試，演算法搜尋所有可能的測試，找出對目標變數來說資訊量最大的哪一個。演算法過程生成一棵二元決策樹，其中每個結點都包含一個測試。將每個測試看成沿著一條軸對當前資料進行劃分，由於每個測試僅僅關注一個特徵，所以

sklearn庫學習之決策樹整合

決策樹整合整合是合併多個機器學習模型來構建更強大模型的方法。兩種整合模型：隨機森林和梯度決策樹。隨機森林構造很多樹(確定用於構造的樹的個數)，並且每棵樹的預測都很好，但都以不同的方式過擬合，那麼可以對這些樹的結果取平均值來降低過擬合。隨機森林中樹的隨機化

sklearn庫學習之核支援向量機

核支援向量機核SVM的重要引數是正則化引數C、核的選擇以及與核相關的引數。在低維資料和高維資料上表現都很好。但對樣本個數的縮放表現不好。預處理資料和調參都需要非常小心。線性模型在低維空間中可能非常受限，因為線和平面的靈活性有限，新增更多的特徵讓線性

機器學習之決策樹機器學習之K-近鄰演算法

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。從2018.12.28開始，決定跟隨《機器學習實戰》的腳步開始其征程，記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　機器學習系列部落格：（1）機器學習之K-近鄰演算法

機器學習之K-近鄰演算法（二）

本章內容： K-近鄰分類演算法從文字檔案中解析和匯入資料使用matplotlib建立擴散圖歸一化數值 2-1 K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法優點：精度高、對異常

機器學習之K-近鄰演算法程式碼分析

在看Peter的K-近鄰實戰時，發現原來“手寫識別系統”不止是影象處理和影象識別可以解決，原來從影象也是矩陣資料的層面來看，不同數字的識別也是資料分類問題（2333……又打開了思維的新視角）。因本身是學影象處理出身，所以關於手寫識別系統，思維受限在怎樣進行影象處理、怎樣訓練數字模型、怎樣進行數字識別了。該

無監督學習之K-means演算法通俗教程

概述什麼是聚類分析聚類分析是在資料中發現數據物件之間的關係，將資料進行分組，組內的相似性越大，組間的差別越大，則聚類效果越好。不同的簇型別聚類旨在發現有用的物件簇，在現實中我們用到很多的簇的型別，使用不同的簇型別劃分資料的結果是不同的，如下的幾種簇型別。明顯分離的可以看到(a

機器學習之K近鄰演算法 kNN(1)

可以說kNN是機器學習中非常特殊的沒有模型的演算法,為了和其他演算法統一,可以認為新聯資料集就是模型本身 1. kNN演算法基本實現 import numpy as np import ma

無監督學習之K-均值演算法分析與MATLAB程式碼實現

前言 K-均值是一種無監督的聚類演算法。首先我們要知道什麼是無監督，無監督就是說在資料集中，資料是沒有標籤的。在有監督的資料集中，資料的形式可能是這樣：{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}。而在無監督的資料集中，資

機器學習之K近鄰演算法 kNN(2)

1.knn演算法的超引數問題 """ 超引數 :執行機器學習演算法之前需要指定的引數模型引數:演算法過程中學習的引數 kNN演算法沒有模型引數 kNN演算法中的k是典型的超引數尋找最好的k """ from

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法 [轉自別的作者，還有其他sklearn翻譯]

http://blog.csdn.net/gamer_gyt/article/details/51244850 ====================================================================== 本系列部落格主要

ML-61: 機器學習之K均值(K-Means)聚類演算法含原始碼

機器學習之K均值聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：K均值

機器學習十大經典演算法之K-近鄰演算法（學習筆記）

演算法概述 K-近鄰演算法(k-Nearest Neighbor，KNN)是機器學習演算法中最簡單最容易理解的演算法。該演算法的思路是：給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分

機器學習實戰k近鄰演算法(kNN)應用之手寫數字識別程式碼解讀

from numpy import * from os import listdir import operator import time #k-NN簡單實現函式 def classify0(inX,dataSet,labels,k): #求出樣本集的行數，也就是labels標籤的數目

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法

======================================================================本系列部落格主要參考 Scikit-Learn 官方網站上的每一個演算法進行，並進行部分翻譯，如有錯誤，請大家指正轉載請註明出

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

sklearn庫學習之K-NN演算法

k近鄰分類與k近鄰迴歸

對於程式碼中函式用法的疑惑

相關推薦