【TensorFlow】TensorFlow 的多層感知器（MLP）

阿新 • • 發佈：2019-02-16

前面有幾篇博文講了使用 TensorFlow 實現線性迴歸和邏輯斯蒂迴歸，這次來說下多層感知器（Multi-Layer Perceptron）的 TensorFlow 實現。

本篇博文的程式碼及結果圖片等可以在這裡下載，裡面包含TensorFlow的實現和sklearn的實現，以及各自的結果圖片。

原理

多層感知器（Multilayer Perceptron,縮寫MLP）是一種前向結構的人工神經網路，對映一組輸入向量到一組輸出向量。MLP是感知器的推廣，克服了感知器不能對線性不可分資料進行識別的弱點。

關於 MLP 的原理我就不再贅述，我用下面的一個圖來簡單說明下：

如上圖，實際上這就是一個前饋神經網路，我畫的就是本篇博文所使用的結構（粗心少畫了一層隱藏層，實際上使用的是3層隱藏層……）：

輸入層：有 3072 個輸入神經元，m=3072
隱藏層：有兩層（三層）隱藏層，每個隱藏層有 1024 個神經元，p=q=1024；
輸出層：有10個神經元，n=10

輸入層和輸出層的神經元個數，是根據資料集來定的，而隱藏層的層數和每層隱藏層的神經元個數，這些都屬於超引數（hyperparameter），是事先通過某種方法確定的。

資料集

這次採用的資料集是著名的 CIFAR-10 影象資料集，包含 60000 張 32×32 的彩色RGB影象，共有 10 類，每類有 6000

張影象。完整資料集可以從這裡下載，注意選擇 Python 版本，大概是 163 MB。

下載好後解壓會看到有5個訓練檔案和1個測試檔案，還有一個說明檔案（batches.meta），這個檔案說明了每個數字類別（0-9）具體代表哪些類別。這幾個檔案都是用 cPickle 打包好的，所以載入資料也要用 cPickle 來載入。注意Python2和Python3的載入方式稍微有些不同，具體見程式碼。

目前在此資料集上做的實驗在沒有資料增加的情況下最低的錯誤率是 18%，資料增加的情況下最低的錯誤率是 11%，都是採用的卷積神經網路（CNN）的結構。

資料集中的影象和分類大致是這樣的：

程式碼

以下程式碼的執行環境是 Python2 + Ubuntu14.04 + Jupyter Notebook。

from __future__ import print_function
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
import cPickle as pickle
# seaborn非必需
import seaborn
# 如果不是在Jupyter Notebook上執行的話請註釋掉下面這句
%matplotlib inline


def unpickle(filename):
    ''' 解壓資料 '''
    with open(filename) as f:
        # for python3 
        # d = pickle.load(f, encoding='latin1')
        d = pickle.load(f)
        return d


def onehot(labels):
    ''' one-hot 編碼 '''
    n_sample = len(labels)
    n_class = max(labels) + 1
    onehot_labels = np.zeros((n_sample, n_class))
    onehot_labels[np.arange(n_sample), labels] = 1

    return onehot_labels

# 讀取資料
data1 = unpickle('cifar-10-batches-py/data_batch_1')
data2 = unpickle('cifar-10-batches-py/data_batch_2')
data3 = unpickle('cifar-10-batches-py/data_batch_3')
data4 = unpickle('cifar-10-batches-py/data_batch_4')
data5 = unpickle('cifar-10-batches-py/data_batch_5')

X_train = np.concatenate((data1['data'], data2['data'], data3['data'], data4['data'], data5['data']), axis=0)
label = np.concatenate((data1['labels'], data2['labels'], data3['labels'], data4['labels'], data5['labels']), axis=0)
y_train = onehot(label)

test = unpickle('cifar-10-batches-py/test_batch')
X_test = test['data']
y_test = onehot(test['labels'])

# 設定模型引數
learning_rate = 0.001
training_epochs = 500
batch_size = 500
display_step = 1
n_sample = X_train.shape[0]

n_input = X_train.shape[1]
n_hidden_1 = 1024
n_hidden_2 = 1024
n_hidden_3 = 1024
n_class = y_train.shape[1]

x = tf.placeholder('float', [None, n_input])
y = tf.placeholder('float', [None, n_class])


def multiplayer_perceptron(x, weight, bias):

    layer1 = tf.add(tf.matmul(x, weight['h1']), bias['h1'])
    layer1 = tf.nn.relu(layer1)
    layer2 = tf.add(tf.matmul(layer1, weight['h2']), bias['h2'])
    layer2 = tf.nn.relu(layer2)
    layer3 = tf.add(tf.matmul(layer2, weight['h3']), bias['h3'])
    layer3 = tf.nn.relu(layer3)
    out_layer = tf.add(tf.matmul(layer3, weight['out']), bias['out'])

    return out_layer


weight = {
    'h1': tf.Variable(tf.random_normal([n_input, n_hidden_1])),
    'h2': tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2])), 
    'h3': tf.Variable(tf.random_normal([n_hidden_2, n_hidden_3])), 
    'out': tf.Variable(tf.random_normal([n_hidden_3, n_class]))
}
bias = {
    'h1': tf.Variable(tf.random_normal([n_hidden_1])),
    'h2': tf.Variable(tf.random_normal([n_hidden_2])), 
    'h3': tf.Variable(tf.random_normal([n_hidden_3])), 
    'out': tf.Variable(tf.random_normal([n_class]))
}

# 建立模型
pred = multiplayer_perceptron(x, weight, bias)

# 定義損失函式
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred, y))

# 優化
optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

# 初始化所有變數
init = tf.initialize_all_variables()

correct_prediction = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, 'float'))

# 訓練模型
with tf.Session() as sess:
    sess.run(init)

    for epoch in range(training_epochs):
        avg_cost = 0
        total_batch = int(n_sample / batch_size)

        for i in range(total_batch):
            _, c = sess.run([optimizer, cost], feed_dict={x: X_train[i*batch_size : (i+1)*batch_size, :], 
                                                          y: y_train[i*batch_size : (i+1)*batch_size, :]})
            avg_cost += c / total_batch

        plt.plot(epoch+1, avg_cost, 'co')

        if epoch % display_step == 0:
            print('Epoch:', '%04d' % (epoch+1), 'cost=', '{:.9f}'.format(avg_cost))

    print('Opitimization Finished!')

    # Test
    acc = accuracy.eval({x: X_test, y: y_test})
    print('Accuracy:', acc)

    plt.xlabel('Epoch')
    plt.ylabel('Cost')
    plt.title('lr=%f, te=%d, bs=%d, acc=%f' % (learning_rate, training_epochs, batch_size, acc))
    plt.tight_layout()
    plt.savefig('cifar-10-batches-py/MLP-TF14-test.png', dpi=200)

    plt.show()

結果

由於進行了500次迭代，結果太多，這裡我就不一一列出了，完整的可以在這裡連帶程式碼一起下載，裡面也包含了我測試不同超引數組合的結果圖。

下面給出本次實驗的結果圖：

其中的縮寫仍然遵照我以前博文的習慣，

lr：learning rate，學習率
tr：training epochs，訓練迭代次數
bs：batch size，batch大小
acc：測試準確率

可以看到最終的準確率是 46.98%，如前所述，目前此資料集上最好的結果是 82%，用的是對影象識別有巨大優勢的卷積神經網路。當然，使用更深層的MLP也會提高準確率。

一些問題

學習率不能過大，這裡使用的 0.001 已經是極限，其他引數不變的情況下，再大例如 0.01，準確率會大幅下跌，跌至 10% 左右，此時無論再怎麼增加迭代次數準確率（包括訓練準確率）也不會提高，一直在 10% 左右，但是損失卻降得很厲害，此處還未徹底搞清楚。
我使用sklearn也測試了一下（程式碼下載連結和上面一樣），最終準確率 46.25%。
本片博文只是為了說明如何使用 TensorFlow 實現MLP，本次做的實驗並不一定是最優的實驗結果。
這篇博文同樣使用CIFAR10資料集但是使用CNN模型，可以和本文做個對比。

END

【TensorFlow】TensorFlow 的多層感知器（MLP）

前面有幾篇博文講了使用 TensorFlow 實現線性迴歸和邏輯斯蒂迴歸，這次來說下多層感知器（Multi-Layer Perceptron）的 TensorFlow 實現。本篇博文的程式碼及結果圖片等可以在這裡下載，裡面包含TensorFlow的實現和sk

神經網路/多層感知器（MLP）架構：選擇隱藏層數量和大小的標準

隱藏層個數：一個零隱藏層的模型可以解決線性可分資料。所以除非你早知道你的資料線性不可分，證明它也沒什麼壞處—為什麼使用比任務需求更困難的模型？如果它是線性可分的那麼一個更簡單的技術可以工作，感知器也可以。假設您的資料確實需要通過非線性技術進行分離，則始終

Deep learning with Theano 官方中文教程（翻譯）（三）——多層感知機（MLP）

供大家相互交流和學習，本人水平有限，若有各種大小錯誤，還請巨牛大牛小牛微牛們立馬拍磚，這樣才能共同進步！若引用譯文請註明出處http://www.cnblogs.com/charleshuang/。下面。http://deeplearning.net/tutorial/mlp.html#mlp 的中

多層感知機（MLP）演算法原理及Spark MLlib呼叫例項（Scala/Java/Python）

多層感知機演算法簡介：多層感知機是基於反向人工神經網路（feedforwardartificial neural network）。多層感知機含有多層節點，每層節點與網路的下一層節點完全連線。輸入層的節點代表輸入資料，其他層的節點通過將輸入資料與層上節點

深度學習基礎（二）—— 從多層感知機（MLP）到卷積神經網路（CNN）

經典的多層感知機（Multi-Layer Perceptron）形式上是全連線（fully-connected）的鄰接網路（adjacent network）。 That is, every neuron in the network is connec

深度學習筆記二：多層感知機（MLP）與神經網路結構

為了儘量能形成系統的體系，作為最基本的入門的知識，請參考一下之前的兩篇部落格：神經網路(一):概念神經網路(二):感知機上面的兩篇部落格讓你形成對於神經網路最感性的理解。有些看不懂的直接忽略就行，最基本的符號的記法應該要會。後面會用到一這兩篇部落格中

MLlib--多層感知機（MLP）演算法原理及Spark MLlib呼叫例項（Scala/Java/Python）

來源：http://blog.csdn.net/liulingyuan6/article/details/53432429 多層感知機演算法簡介：多層感知機是基於反向人工神經網路（feedforwardartificial neural net

多層感知機（MLP）

　　最終還是沒有憋住，寫下了這篇博文，最近真的是感慨很多啊，真的很想找個人說說。還有那麼多的東西要看要學。　　最近一直在搞神經網路方面的東西，看了MLP的講解，但都是講解結構，我就是想知道MLP到底

Keras簡單實現多層感知機（MLP）程式碼

import keras from keras.model import Sequential from keras.layers import Dense,Dropout from keras.op

TensorFlow HOWTO 4.1 多層感知機（分類）

4.1 多層感知機（分類）這篇文章開始就是深度學習了。多層感知機的架構是這樣：輸入層除了提供資料之外，不幹任何事情。隱層和輸出層的每個節點都計算一次線性變換，並應用非線性啟用函式。隱層的啟用函式是壓縮性質的函式。輸出層的啟用函式取決於標籤的取值範圍。其本質上相當於

用pytorch實現多層感知機（MLP)（全連線神經網路FC）分類MNIST手寫數字體的識別

1.匯入必備的包 1 import torch 2 import numpy as np 3 from torchvision.datasets import mnist 4 from torch import nn 5 from torch.autograd import Variable 6

【深度學習】多層感知器解決異或問題

利用Python 建立兩層感知器，利用W-H學習規則訓練網路權值： #!/usr/bin/env python # -*- coding:utf-8 -*- import random import numpy as np import matplotl

【Python-ML】神經網路-多層感知器增加梯度檢驗

# -*- coding: utf-8 -*- ''' Created on 2018年1月26日 @author: Jason.F @summary: 多層感知器實現，加梯度檢驗訓練集：http://yann.lecun.com/exdb/mnist/ train-im

tensorflow學習筆記——自編碼器及多層感知器

1，自編碼器簡介　　傳統機器學習任務很大程度上依賴於好的特徵工程，比如對數值型，日期時間型，種類型等特徵的提取。特徵工程往往是非常耗時耗力的，在影象，語音和視訊中提取到有效的特徵就更難了，工程師必須在這些領域有非常深入的理解，並且使用專業演算法提取這些資料的特徵。深度學習則可以解決人工難以提取有效特徵的問題

TensorFlow學習筆記（4）--實現多層感知機（MNIST資料集）

前面使用TensorFlow實現一個完整的Softmax Regression，並在MNIST資料及上取得了約92%的正確率。現在建含一個隱層的神經網路模型（多層感知機）。 import tensorflow as tf import numpy as np

多層感知器識別手寫數字算法程序

itl cti val shape erb ase 鏈接 n) frame 1 #coding=utf-8 2 #1.數據預處理 3 import numpy as np #導入模塊，numpy是擴展鏈接庫 4 import pan

Keras多層感知器：印第安糖尿病人診斷

例項中使用的是Pima Indians Diabetes資料集，資料集有八項屬性和對應輸出：（1）懷孕次數（2）2小時口服葡萄糖耐量實驗中血漿葡萄糖濃度（3）舒張壓（4）三頭肌皮褶皺厚度（5）2小時血清胰島素（6）身體質量指數（7）糖尿病譜系功能（8）

國際旅行人數預測——使用多層感知器

這個例子是使用多層感知器來處理時間序列問題，例子來源於魏貞原老師的書。資料集使用的是國際旅行旅客人數資料集（international-airline-passengers）資料集下載：國際旅行旅客人數資料集（international-airline-passengers）利用m

theano 多層感知器模型

本節要用Theano實現的結構是一個隱層的多層感知器模型（MLP）。MLP可以看成一種對數迴歸器，其中輸入通過非線性轉移矩陣ΦΦ做一個變換處理，以便於把輸入資料投影到一個線性可分的空間上。MLP的中間層一般稱為隱層。單一的隱層便可以確保MLP全域性近似。然而，我們稍後還會

keras多層感知器識別手寫數字

2.Keras建立多層感知器模型(接上一篇) 2.1簡單介紹多層感知器模型注：以下模型及其說明來自於《TensorFlow+Keras深度學習人工智慧實踐應用》林大貴著以矩陣方式模擬多層感知器模型的工作方式(如下圖所示) 建立輸入與隱藏層的公式： h1=

【TensorFlow】TensorFlow 的多層感知器（MLP）

原理

資料集

程式碼

結果

一些問題

END

相關推薦