從0開始的機器學習——knn演算法篇（4）

阿新 • • 發佈：2020-07-15

本次實驗採用另一個數據集——手寫字母資料集

首先引入必要的庫：

import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn import datasets

digits = datasets.load_digits()

digits.keys()

print(digits.DESCR) //看一下這個資料集的描述

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
 
http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each block. This generates
an input matrix of 8x8 where each element is an integer in the range
0..16. This reduces dimensionality and gives invariance to small
distortions.

For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G.
T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C.
L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469,
1994.

.. topic:: References

  - C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their
    Applications to Handwritten Digit Recognition, MSc Thesis, Institute of
    Graduate Studies in Science and Engineering, Bogazici University.
  - E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
  - Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin.
    Linear dimensionalityreduction using relevance weighted LDA. School of
    Electrical and Electronic Engineering Nanyang Technological University.
    2005.
  - Claudio Gentile. A New Approximate Maximal Margin Classification
    Algorithm. NIPS. 2000.
 

X = digits.data
X.shape //這個資料集是簡化的資料集，所以並沒有5620個數據，有1797個數據 每個資料有64個屬性，是一個8x8的矩陣

檢視一下前100個數據的屬性：

可以發現這個資料集和鳶尾花的資料集分佈不一樣，這個是沒有規律的。

隨意選一個數據看一下：

基本看出來是一個數字 8

接下來呼叫封裝好的knn演算法來測試一下：

from sklearn.model_selection import train_test_split //引入分割資料集的方法

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2) //分割資料集

from sklearn.neighbors import KNeighborsClassifier //引入KNN演算法

my_knn_clf = KNeighborsClassifier(n_neighbors=3) //k值為3

my_knn_clf.fit(X_train,y_train) //傳入訓練樣本集

y_predict = my_knn_clf.predict(X_test)//獲得預測樣本資料

y_predict

sum(y_predict == y_test) / len(y_test) # y_predict向量與y_test向量進行比較，如果對應的數值相等，就返回true值，用sum()統計true值的個數，然後比上所有的測試數值個數，就可以獲得預測的精確度

如果不想寫這個邏輯，可以直接呼叫sklearn庫中的方法：

from sklearn.metrics import accuracy_score

accuracy_score(y_test,y_predict)

my_knn_clf.fit(X_test,y_test)

my_knn_clf.score(X_test,y_test)

從0開始的機器學習——knn演算法篇（4）

本次實驗採用另一個數據集——手寫字母資料集首先引入必要的庫： import numpy as npimport matplotlibimport matplotlib.pyplot as pltfrom sklearn import datasets

從 0 開始機器學習 - 機器學習系統的設計

一、構建演算法的推薦步驟當我們遇到一個問題，比如預測房價，我們想要用機器學習演算法來更好的解決這個問題，推薦的步驟如下：

從 0 開始學 Python 自動化測試開發（二）：環境搭建

本文是「從 0 開始學 Python 自動化測試開發」專題系列文章第二篇 —— 環境搭建篇，適合零基礎入門的同學。作者方程老師，是前某跨國通訊公司高階測試經理，目前為某網際網路名企資深測試技術專家，也

linux小白從0開始搭建自己的個人網站（二）

伺服器購買了3年，其中2020年基本沒有去管他，最近https證書過期了，重新申請了證書，固做此記錄：

效能測試從零開始實施指南——效能監控篇（轉）

效能分析的目的是找出系統性能存在的瓶頸與風險，效能調優就是儘可能用更少的資源提供更好的服務。而其關鍵點，就是生成負載、監控相關指標。

效能測試從零開始實施指南——測試報告篇（轉）

效能測試的目的，是通過模擬真實的業務場景和海量的使用者請求及資料對業務系統進行多種場景的測試，來驗證各個服務的效能表現是否滿足實際的業務需要。

從零開始一起學Blazor WebAssembly 開發（4）

登入模組基本完成了，登入主要用了以下幾個點： 1、後端採用的Abp Vnext 框架，這個框架自帶的IdentityServer4使用者角色許可權控制，這個框架登入研究了好一陣子，有幾個坑這裡說下：

python機器學習-KNN演算法

K-近鄰演算法API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=\'auto\') n_neighbors：int,可選（預設= 5），k_neighbors查詢預設使用的鄰居數

機器學習Sklearn系列：（五）聚類演算法

本文詳細的介紹了幾種常見的聚類演算法。 K-means 原理首先隨機選擇k個初始點作為質心

【機器學習】數值分析（1）—— 任意方程求根

任意方程求根簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的

從零開始的野路子React/Node（5）近期Hooks使用體會

上週實習生大佬休假，導致瘋狂趕工，在一如既往的複製-黏貼-修改中，竟也漸漸琢磨出一點前端的感覺來。這一期主要講講最近使用Hooks的心得。

go 學習筆記基礎篇（一）

golang 變數宣告 var 宣告單個變數 var 變數名稱型別變數名稱命名： a. 字母、數字、下劃線組成，首字母不能為數字

從零開始的野路子React/Node（6）關於模態框的二三事

前一陣遇到過一個需求，要求在App中點選某個按鈕會彈出一個對話方塊（即模態框Modal）。第一件事自然是看看公司內部的元件庫有沒有已經實現的功能，結果這一看把我看得雲裡霧裡的，這是神馬？這又是神馬？算了，還是

機器學習筆記—模式分類（四）引數判別估計法3（貝葉斯引數估計）

前序文章：機器學習筆記—模式分類（一）緒論&貝葉斯決策論機器學習筆記—模式分類（二）引數判別估計法（最大似然估計和貝葉斯引數估計）1

機器學習中的數學（六）：線性判別分析（LDA）, 主成分分析(PCA)

前言如果學習分類演算法，最好從線性的入手，線性分類器最簡單的就是LDA，它可以看做是簡化版的SVM，如果想理解SVM這種分類器，那理解LDA就是很有必要的了。談到LDA，就不得不談談PCA，PCA是一個和LDA非

從零開始的野路子React/Node（7）將Swagger（OpenAPI）運用於後端API

之前公司做專案是用過swagger來配置python模型的API，感覺非常好用。swagger可以提供request, response甚至error的驗證機制，十分便利。node當然也可以用啦。

從零開始的野路子React/Node（8）後端套餐 TS + MySQL + Sequelize + TSOA

最近自己嘗試了一下後端套餐的搭建，發現其實也有挺多小坑的，之前都是同事大佬和實習生大佬搭好了架子我往裡塞東西，現在覺得還是有必要好好了解一下整個過程。

從零開始的野路子React/Node（9）Antd + multer實現檔案上傳

最近心血來潮，打算自己搗騰個webapp來練練手（雖然大概率會半路棄坑……），其中有一部分是關於檔案上傳的，在實現的過程中遇到了一些坑，於是打算把血淚教訓都記錄下來。

從零開始的python自學之旅（二）

技術標籤：自學打卡python 從零開始的python自學之旅（二） Day 2 常見的資料型別（一些注意的事項：0b45123二進位制，45123十進位制，0o45123八進位制，0x45123 十六進位制） 1.float 具有不準確性，如a=1.1

機器學習Sklearn系列：（二）邏輯迴歸

本文詳細的介紹了邏輯迴歸的推導和演算法原理。邏輯迴歸可以用來做分類任務，通俗理解，就是講輸入對映到到概率區間0-1，從而實現分類功能，邏輯迴歸的公式推導如下：

從0開始的機器學習——knn演算法篇（4）

相關推薦