KNN實現CIFAR-10資料集識別

阿新 • • 發佈：2019-02-14

KNN缺點：每個測試樣本都要迴圈一遍訓練樣本。

該資料集由5個data_batch和一個test_batch構成，測試程式碼

import pickle
import numpy as np
fo=open('./datasets/cifar-10-batches-py/data_batch_1','rb')
dict=pickle.load(fo,encoding='bytes')
print(dict)
print(dict[b'data'].shape)

print(dict[b'labels'])
print(len(dict[b'labels']))

print(dict[b'filenames'])
print(len(dict[b'filenames']))
fo.close()

可看出，一個data_batch由10000個，32×32×3大小的圖片組成，5個就是50000個，test_batch也是10000張，故有50000張訓練樣本，10000張測試樣本。

將5個訓練集合成一個程式碼如下：

import pickle
import numpy as np

"""
解壓資料集
"""
def unpickle(file):
    fo=open(file,'rb')
    dict=pickle.load(fo,encoding='bytes')
    fo.close()
    return dict
"""
5個data_batch和1個test_batch合成一個
"""
def load_cifar10(file):
    data_train = []
    label_train=[]
    #融合訓練集
    for i in range(1,6):
        dic=unpickle(file+'data_batch_'+str(i))
        for i_data in dic[b'data']:
            data_train.append(i_data)
        for i_label in dic[b'labels']:
            label_train.append(i_label)
    # print(np.array(data_train).shape)
    # print(np.array(label_train).shape)
    # 融合測試集
    data_test=[]
    label_test=[]
    dic = unpickle(file + 'test_batch')
    for i_data in dic[b'data']:
        data_test.append(i_data)
    for i_label in dic[b'labels']:
        label_test.append(i_label)
    # print(np.array(data_test).shape)
    # print(np.array(label_test).shape)
    return (np.array(data_train),np.array(label_train),np.array(data_test),np.array(label_test))
path='./datasets/cifar-10-batches-py/'
# #(50000,3072) (50000,) (10000,3072) (10000,)
(data_train,label_train,data_test,label_test)=load_cifar10(path)
print(data_train.shape)
print(label_train.shape)
print(label_train[:10])
print(data_test.shape)
print(label_test.shape)

KNN程式碼：

import numpy as np
import pickle
"""
程式功能：k近鄰實現cifar10上的樣本分類 精度低 測試時間長
"""
#輸入訓練集和測試集
#解壓資料集
def unpickle(file):
    fo=open(file,'rb')
    dict=pickle.load(fo,encoding='bytes')
    print(dict)
    fo.close()
    return dict
#融合訓練集和測試集作為輸出總樣本
def load_cifar10(file):
    data_train = []
    label_train=[]
    #融合訓練集
    for i in range(1,6):
        dic=unpickle(file+'data_batch_'+str(i))
        for i_data in dic[b'data']:
            data_train.append(i_data)
        for i_label in dic[b'labels']:
            label_train.append(i_label)
    # print(np.array(data_train).shape)
    # print(np.array(label_train).shape)
    # 融合測試集
    data_test=[]
    label_test=[]
    dic = unpickle(file + 'test_batch')
    for i_data in dic[b'data']:
        data_test.append(i_data)
    for i_label in dic[b'labels']:
        label_test.append(i_label)
    # print(np.array(data_test).shape)
    # print(np.array(label_test).shape)
    return (np.array(data_train),np.array(label_train),np.array(data_test),np.array(label_test))
path='./datasets/cifar-10-batches-py/'
#(50000,3072) (50000,) (10000,3072) (10000,)
(data_train,label_train,data_test,label_test)=load_cifar10(path)
#print(label_train)
print(data_train.shape,label_train.shape,data_test.shape,label_test.shape)
#print(data_test.shape[0])

"""
實現最近鄰的預測
"""
class NearestNeighbor:
    def __init__(self):
        pass
    def train(self,X,y):
        self.Xtr=X
        self.ytr=y
    def predict(self,X):
        num_test=X.shape[0]
        self.X=X
        Y_pred=np.zeros(num_test,dtype=self.ytr.dtype)
        for i in range(num_test):
            distances=np.sum(np.abs(self.Xtr-self.X[i,:]),axis=1)
            #distances=np.sqrt(np.sum(np.square(self.Xtr-self.X[i,:]),axis=1))
            min_index=np.argmin(distances)
            Y_pred[i]=self.ytr[min_index]
            if i%100==0:
                print('執行到{}步'.format(i))
        return Y_pred
nn=NearestNeighbor()
nn.train(data_train,label_train)
Y_pred=nn.predict(data_test)
accuarcy=np.mean(label_test==Y_pred)
print('accuarcy={}'.format(accuarcy))

列印結果：精度不高，後面引入神經網路

SVM損失函式：

loss.py

import numpy as np
"""
程式功能：利用SVM代價函式實現損失值的積累
"""
def L(X,y,W):
    #X [3073,50000]
    #y 一維（50000,）
    #W [10,3073]
    delta=1.0
    scores=np.dot(W,X)
    #print(y)
    #對應訓練樣本的輸出y
    #print(scores[y, np.arange(scores.shape[1])])
    #(10,50000)
    #SVM函式
    margins=np.maximum(0,scores-scores[y, np.arange(scores.shape[1])]+delta)
    #print('margins.shape={}'.format(margins.shape))
    margins[y,np.arange(scores.shape[1])]=0
    loss=np.mean(margins)
    return loss

optimizer_grand.py

import numpy as np
import pickle
import loss
"""
函式功能：利用隨機搜尋和區域性隨機搜尋來獲取W和b採用SVM損失函式 獲取最佳的W和b
"""
#輸入訓練集和測試集
#解壓資料集
def unpickle(file):
    fo=open(file,'rb')
    dict=pickle.load(fo,encoding='bytes')
    fo.close()
    return dict
#融合訓練集和測試集作為輸出總樣本
def load_cifar10(file):
    data_train = []
    label_train=[]
    #融合訓練集
    for i in range(1,6):
        dic=unpickle(file+'data_batch_'+str(i))
        for i_data in dic[b'data']:
            data_train.append(i_data)
        for i_label in dic[b'labels']:
            label_train.append(i_label)
    # print(np.array(data_train).shape)
    # print(np.array(label_train).shape)
    # 融合測試集
    data_test=[]
    label_test=[]
    dic = unpickle(file + 'test_batch')
    for i_data in dic[b'data']:
        data_test.append(i_data)
    for i_label in dic[b'labels']:
        label_test.append(i_label)
    # print(np.array(data_test).shape)
    # print(np.array(label_test).shape)
    return (np.array(data_train),np.array(label_train),np.array(data_test),np.array(label_test))
path='./datasets/cifar-10-batches-py/'
#(50000,3072) (50000,) (10000,3072) (10000,)
(data_train,label_train,data_test,label_test)=load_cifar10(path)
#print(label_train)
print(data_train.shape,label_train.shape,data_test.shape,label_test.shape)
#(3072,50000)
train_data=np.transpose(data_train)
#增加一行 處理偏置值
bias=np.ones((1,train_data.shape[1]))
#(3073,50000)
train_data=np.vstack((train_data,bias))
print(train_data.shape)
#隨機選擇最佳的權值 輸出最佳的W
def random_search():
    bestloss=float('inf')
    for number in range(1000):
        # 隨機搜尋  權值隨機更新 選出比較好的
        W = np.random.randn(10, 3073) * 0.0001
        # 計算損失值
        lost = loss.L(train_data, label_train, W)
        if lost<bestloss:
            bestloss=lost
            bestW=W
        if number%100==0:
            print('number={},the lost={},bestloss={}'.format(number,lost,bestloss))
    return bestW
#呼叫隨機產生的最佳權值產生預測值與標籤值算精確度
def random_search_accu():
        bestW=random_search()
        #(10,50000)
        scores=np.dot(bestW,train_data)
        #找出每列分數最大值的索引
        Y_predict=np.argmax(scores,axis=0)
        accurarcy=np.mean(Y_predict==label_train)
        print('accurarcy={}'.format(accurarcy))
def random_local_search():
    W = np.random.randn(10, 3073) * 0.001
    bestloss=float('inf')
    for number in range(1000):
        # 隨機搜尋  權值隨機更新 選出比較好的
        step_size=0.0001
        W_try=W+np.random.randn(10, 3073) * step_size
        # 計算損失值
        lost = loss.L(train_data, label_train, W_try)
        if lost<bestloss:
            bestloss=lost
            bestW=W_try
        if number%100==0:
            print('number={},the lost={},bestloss={}'.format(number,lost,bestloss))
    return bestW
#呼叫隨機產生的最佳權值產生預測值與標籤值算精確度
def random_local_search_accu():
        bestW=random_local_search()
        #(10,50000)
        scores=np.dot(bestW,train_data)
        #找出每列分數最大值的索引
        Y_predict=np.argmax(scores,axis=0)
        accurarcy=np.mean(Y_predict==label_train)
        print('accurarcy={}'.format(accurarcy))
if __name__ == '__main__':
    #隨機搜尋
    # random_search_accu()
    #區域性隨機搜尋
    random_local_search_accu()
    #梯度跟隨

隨機最佳權重的列印結果：

在迭代過程中，權重還變化的結果

KNN實現CIFAR-10資料集識別

KNN缺點：每個測試樣本都要迴圈一遍訓練樣本。該資料集由5個data_batch和一個test_batch構成，測試程式碼 import pickle import numpy as np fo=open('./datasets/cifar-10-batch

[keras實戰] 小型CNN實現Cifar-10資料集84%準確率

實驗環境程式碼基於python2.7, Keras1（部分介面在Keras2中已經被修改，如果你使用的是Keras2請查閱文件修改介面）個人使用的是蟲資料提供的免費GPU主機，GTX1080顯示卡，因為是免費賬號，所以視訊記憶體最高只有1G。為了防止超視

深度學習之TensorFlow使用CNN測試Cifar-10資料集（Python實現）

題目描述： 1. 對Cifar-10影象資料集，用卷積神經網路進行分類，統計正確率。 2.選用Caffe, Tensorflow, Pytorch等開源深度學習框架之一，學會安裝這些框架並呼叫它們的介面。 3.直接採用這些深度學習框架針對Cifar-10資料集已訓練好的網路模型，只

Tensorflow深度學習之二十一：LeNet的實現（CIFAR-10資料集）

一、LeNet的簡介 LeNet是一個用來識別手寫數字的最經典的卷積神經網路，是Yann LeCun在1998年設計並提出的。Lenet的網路結構規模較小，但包含了卷積層、池化層、全連線層，他們都構成了現代CNN的基本元件。 LeNet包含輸入層在內共有

Tensorflow深度學習之二十二：AlexNet的實現（CIFAR-10資料集）

二、工程結構由於我自己訓練的機器記憶體視訊記憶體不足，不能一次性讀取10000張圖片，因此，在這之前我按照圖片的類別，將每一張圖片都提取了出來，儲存成了jpg格式。與此同時，在儲存圖片的過程中，儲存了一個python的dict結構，鍵為每一張圖片的相對地

關於cifar-10資料集讀取問題

資料集下載後是特定格式，需要編寫函式進行讀取。讀取後是dict格式，有4個鍵及其對應的若干值，如何準確讀取並修改影象維度，使用reshape會發現資料錯亂。每個檔案中資料儲存格式為dict字典，鍵值為b’data’的為圖片資料，是一個10000 * 3072（32 * 32 * 3）

Cifar-10資料集的視覺化儲存

學習Tensorflow或深度學習，難免用到各種資料集，最近用到cifar10資料集，簡單研究了下，然後把cifar-10資料集儲存為jpg圖片，分別利用python和c++做了實現。關於cifar-10，網上介紹很多，這裡主要用了python和binar

機器學習學習筆記：用MiniVGGNet處理Cifar-10資料集

0. 引言 VGGNet，由Simonyan和Zisserman在2014年提出，論文名字是《Very Deep Learning Convolutional Neural Networks for Large-Scale Image Recognition》。他們做出的貢

深度學習入門——利用卷積神經網路訓練CIFAR—10資料集

CIFAR-10資料集簡介 CIFAR-10是由Hinton的學生Alex Krizhevsky和Ilya Sutskever整理的一個用於普適物體的小型資料集。它一共包含10個類別的RGB彩色圖片：飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船：資料集包含50000張訓練圖片和1000

vs2017 VGG19處理cifar-10資料集--更進一步的學習tensorflow相關知識

這是針對於部落格vs2017安裝和使用教程（詳細）的VGG19-CIFAR10專案新建示例目錄一、程式碼(附有重要的註釋) 二、專案結構三、VGG簡介四、程式執行關鍵部分解析五、訓練過程和結果六、參考部落格和文獻一、程式碼(附有重要的註釋)

windows下TensorFlow中匯入cifar-10資料集時出現的錯誤/git clone錯誤

Windows環境下TensorFlow中匯入cifar-10資料集時出現的錯誤error:RPC failed;curl 56 OpenSSL SSL_read:SSL_ERROR_SYSCALL,errno 10054ffatal:early EOFatal:The re

計算機視覺（八）：提取Cifar-10資料集的HOG、HSV特徵並使用神經網路進行分類

1 - 引言之前我們都是將整張圖片輸入進行分類，要想進一步提升準確率，我們就必須提取出圖片更容易區分的特徵，再將這些特徵當做特徵向量進行分類。在之前我們學了一些常用的影象特徵，在這次實驗中，我們使用了兩種特徵梯度方向直方圖（HOG）顏色直方圖（HSV）

計算機視覺（七）：構建兩層的神經網路來分類Cifar-10資料集

1 - 引言之前我們學習了神經網路的理論知識，現在我們要自己搭建一個結構為如下圖所示的神經網路，對Cifar-10資料集進行分類前向傳播比較簡單，就不在贅述反向傳播需要注意的是，softmax的反向傳播與之前寫的softmax程式碼一樣。神經網路內部的反向傳播權重偏導就是前面

計算機視覺（六）：使用Softmax分類Cifar-10資料集

1 - 引言這次，我們將使用Softmax來分類Cifar-10，過程其實很之前使用的SVM過程差不多，主要區別是在於損失函式的不同，而且Softmax分類器輸出的結果是輸入樣本在不同類別上的概率值大小,Softmax分類器也叫多項Logistic迴歸線性模型:

計算機視覺（五）：使用SVM分類Cifar-10資料集

1 - 引言之前我們使用了K-NN對Cifar-10資料集進行了圖片分類，正確率只有不到30%，但是還是比10%高的[手動滑稽]，這次我們將學習使用SVM分類器來對Cafi-10資料集實現分類，但是正確率應該也不會很高要想繼續提高正確率，就要對影象進行預處理和特徵的選取工作，而不

TensorFlow學習－－卷積神經網路訓練CIFAR-10資料集

CIFAR-10資料集 CIFAR-10資料集包含10個類的60000張32x32的彩色影象，每個類有6000張影象。有50000張訓練影象和10000張測試影象。 10個分類明細及對應的部分圖片：卷積神經網路訓練CIFAR-10資料集

Python3讀取深度學習CIFAR-10資料集出現的若干問題解決

　　今天在看網上的視訊學習深度學習的時候，用到了CIFAR-10資料集。當我興高采烈的執行程式碼時，卻發現了一些錯誤： # -*- coding: utf-8 -*- import pickle as p import numpy as np import o

Tensorflow卷積神經網路實現MNIST手寫資料集識別

模型建的不好，最終只有85%左右的準確率，後面繼續改進吧 #卷積神經網路API 卷積層：tf.nn.conv2d(input, #輸入張量，具有[batch, height, width, chann

Pytorch實戰2：ResNet-18實現Cifar-10影象分類（測試集分類準確率95.170%）（轉）

Pytorch實戰2：ResNet-18實現Cifar-10影象分類實驗環境: torchvision 0.2.1 Python 3.6 CUDA8+cuDNN v7 (可選) Win10+Pycharm 整個專案程式碼：點選這裡 Res

全連線神經網路實現MNIST手寫資料集識別

有目錄，內容大部分從官方教程copy，黑體加粗為對官方教程的補充 TensorFlow,pytorch,cuda,cudnn,anaconda安裝版本對應關係 Version Python version Compiler Build tools cu

KNN實現CIFAR-10資料集識別

相關推薦