Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

阿新 • • 發佈：2021-02-09

技術標籤：機器學習深度學習 tensorflow pytorch

Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

今天介紹一下比較簡單的機器學習演算法KNN演算法。它最初由 Cover和Hart於1968年提出，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。

KNN演算法基本原理

該方法的思路非常簡單直觀：離已知的某一個類中的所有點的平均距離距離最小的，就將這個點歸為該類。
該方法的不足之處是計算量較大，因為對每一個待分類的文字都要計算它到全體已知樣本的距離，會佔用很大的時間與記憶體。

KNN分類演算法包括以下4個步驟：

①準備資料，對資料進行預處理
②計算測試樣本點（也就是待分類點）到其他每個樣本點的距離
③對每個距離進行排序，然後選擇出距離最小的點
④將測試點歸類到這個最小距離的類中。

本文中用的是L2距離實現：
L 2 = ( x 2 − x 1 ) 2 + ( y 2 − y 1 ) 2 L2=\sqrt{(x_2-x1)^2+(y_2-y_1)^2} L2=(x2−x1)2+(y2−y1)2

程式碼實現（使用的CPU為銳龍R5-3500U）

MNIST資料集下

pytorch實現

import torch
import torch.nn as nn
import torchvision
import 
 torchvision.transforms as transforms
import time

#資料準備
train_dataset = torchvision.datasets.MNIST(root='/data', 
                                           train=True, 
                                           transform=transforms.ToTensor(),
                                           download=True 
)

test_dataset = torchvision.datasets.MNIST(root='/data', 
                                          train=False, 
                                          transform=transforms.ToTensor())
x_train = train_dataset.data.float()#訓練資料
y_train = train_dataset.targets#訓練資料的標籤
x_test = test_dataset.data.float()#測試資料
y_test = test_dataset.targets#測試資料的標籤   

accuracy=0
number=1000
#執行網路
start = time.perf_counter()
for epoch in range(number):
    # 計算L2距離
    distance = torch.sqrt(torch.sum(torch.sum(torch.pow(x_train-x_test[epoch],2),dim=2),dim=1))
    # 獲取最小距離的索引
    nn_index =  torch.argmin(distance, 0)
    if epoch  ==0:
    	print("Test", epoch, "Prediction:", y_train[nn_index].item(),"True Class:", y_test[epoch].item())
    # 計算精確度
    if y_train[nn_index].item() == y_test[epoch].item():
        accuracy += 1/number
elapsed = (time.perf_counter() - start)#計算所用時間
print("Time used:",elapsed)#輸出結果
print(f'accuracy:{accuracy}')

在這裡插入圖片描述

Tensorflow實現

import tensorflow.compat.v1 as tf
import numpy as np
from tensorflow.keras.datasets import mnist
import time
import matplotlib.pyplot as plt
from sklearn import datasets

#準備資料
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# 輸入佔位符
tf.compat.v1.disable_eager_execution()
xtr = tf.placeholder("float32", [None,25,25])
xte = tf.placeholder("float32", [25,25])

# 計算L2距離
distance = tf.sqrt(tf.reduce_sum(tf.reduce_sum(tf.pow(tf.add(xtr, tf.negative(xte)),2),reduction_indices=1),reduction_indices=1))
# 獲取最小距離的索引
pred = tf.arg_min(distance, 0)

# 初始化變數
init = tf.global_variables_initializer()
number=1000
#分類精確度
accuracy = 0

# 執行會話，訓練模型
start = time.perf_counter()
with tf.Session() as sess:
    # 執行初始化
    sess.run(init)
    # 遍歷測試資料
    for i in range(number):
        # 獲取當前樣本的最近鄰索引
        nn_index = sess.run(pred, feed_dict={xtr: x_train, xte: x_test[i]})   #向佔位符傳入訓練資料
        #最近鄰分類標籤與真實標籤比較
        if i %50 == 0:
            print("Test", i, "Prediction:", y_train[nn_index], \"True Class:", y_test[i])
        # 計算精確度
        if y_train[nn_index] == y_test[i]:
            accuracy += 1/number

    print("Done!")
    print(f"Accuracy:{accuracy}")
elapsed = (time.perf_counter()-start)
print(f'time use :{elapsed}')

在這裡插入圖片描述
對比可知，在執行KNN時，tensorflow在cpu狀態下比pytorch快，兩個框架的正確率不相上下。(不喜勿噴)

Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

技術標籤：機器學習深度學習tensorflowpytorch Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

Pytorch和Tensorflow在相同資料規模規模下的降維PCA(Principal Component Analysis)演算法中的運算速度對比

技術標籤：tensorflowpytorch機器學習深度學習 Pytorch和Tensorflow在相同資料規模規模下的降維PCA(Principal Component Analysis)演算法中的運算速度對比

pytorch和tensorflow的愛恨情仇之引數初始化

pytorch和tensorflow的愛恨情仇之基本資料型別 pytorch和tensorflow的愛恨情仇之張量 pytorch和tensorflow的愛恨情仇之定義可訓練的引數

藉助北外映象用miniconda從零開始搭建深度學習框架pytorch和tensorflow

藉助北外映象搭建深度學習框架pytorch或tensorflow 前言北外映象安裝anaconda在conda中搭建pytorchpytorch安裝後使用程式碼驗證安裝tensorflow總結

如何在PyTorch和TensorFlow中訓練影象分類模型

作者|PULKIT SHARMA 編譯|Flin 來源|analyticsvidhya 介紹影象分類是計算機視覺的最重要應用之一。它的應用範圍包括從自動駕駛汽車中的物體分類到醫療行業中的血細胞識別，從製造業中的缺陷物品識別到建立可以對戴口

pytorch和tensorflow的愛恨情仇之一元線性迴歸例子（keras插足啦）

直接看程式碼：一、tensorflow #tensorflow import tensorflow as tf import random import numpy as np

Pytorch和TensorFlow的softmax函式使用區別小記

技術標籤：深度學習深度學習softmax 【背景】 Pytorch官方給的CNN模型中，在最後的分類層中並沒有使用softmax函式、

自定義CrudService和CrudServiceImpl解決資料id欄位型別與人人框架程式碼中id型別不一致的問題

資料庫中表的id欄位是varchar型別的，使用程式碼生成器生成的程式碼中會呼叫人人框架自帶的CrudService和CrudServiceImpl,

大資料機器學習（四）K-近鄰演算法

K-近鄰演算法（K-nearest neighbor，KNN）實質：找k個最近的鄰居，人多取勝（問題是k值該取多少怎麼確定）三個基本要素：

基於影象處理和tensorflow實現GTA5的車輛自動駕駛——第九節獲取影象資料

程式碼已放到碼雲 https://gitee.com/photographer_adam/Based-on-image-processing-and-tensorflow-to-realize-GTA5-vehicle-automatic-driving

基於影象處理和tensorflow實現GTA5的車輛自動駕駛——第十節平衡資料

在上節我們實現了生成一個訓練集，資料的預處理十分重要，我們使用Python庫看看這個資料集的結構

百度地圖：2021 春運返鄉遷徙規模同比下降 50%

2 月 14 日訊息近日，百度地圖釋出春運返鄉期（1 月 28 日 - 2 月 11 日）人口遷徙、路況大資料，可以從資料中感知國人春運出行新變化。

pytorch，tensorflow載入本地mnist資料集

技術標籤：tensorflowpytorchtensorflowpytorch 1. pytorch import torch import torch.nn as nn from torchvision import datasets, transforms

使用 Android Studio Profiler 工具解析應用的記憶體和 CPU 使用資料

為了幫助開發者開發出更加輕快高效的應用，我們在 Android Studio 3.0 以及更高版本中加入了 Android Profiler 工具，用於應用的 CPU、記憶體、網路和能耗分析。

JVM—【01】認識JVM的記憶體佈局和執行時資料區

1. Java 記憶體區域 1.1. JVM 記憶體佈局與執行時資料區 1.2. Heap 堆它的唯一目的就是存放物件例項；幾乎所有物件例項和陣列，分配記憶體的區域。

python爬蟲貓眼電影和電影天堂資料csv和mysql儲存過程解析

字串常用方法 # 去掉左右空格 \'hello world\'.strip()# \'hello world\' # 按指定字元切割

sqlserver之datepart和datediff應用查詢當天上午和下午的資料

DATEPART() 函式用於返回日期/時間的單獨部分，比如年、月、日、小時、分鐘等等。

Oracle連續相同資料的統計

有些事情始終是需要堅持下去的。。。今天覆習一下之前用到的連續相同資料的統計。

MongoDB使用mongoexport和mongoimport命令,批量匯出和匯入JSON資料到同一張表的例項

需求是這樣的：需要修改資料庫中某個表的所有資料，所以，要全部匯出，然後修改，修改完之後，再把修改後的資料給再匯入到mongo去。

Centos7如何備份和還原Redis資料的方法

何為Redis？ Redis是記憶體中的鍵值快取和儲存（即資料庫），也可以永久儲存到磁碟。在本文中，你將瞭解，如何在Centos 7上備份還原您的redis資料庫。

Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

Pytorch和Tensorflow在相同資料規模規模下的降維KNN(K-NearestNeighbor)演算法中的運算速度對比

KNN演算法基本原理

KNN分類演算法包括以下4個步驟：

程式碼實現（使用的CPU為銳龍R5-3500U）

MNIST資料集下

pytorch實現

Tensorflow實現

相關推薦