基於Tensorflow+MNIST的前向傳播神經網路

阿新 • • 發佈：2019-01-04

import tensorflow as tf
from tensorflow.example.tutorials.mnist import imput_data

#MNIST資料集相關的常數
INPUT_NODE = 784        #輸入層的節點數，這裡等於圖片的畫素
OUTPUT_NODE = 10        #輸出層節點數，這裡為0~9共10個數子

#配置神經網路的引數

LAYER1_NODE = 500       #隱藏層節點數，這裡使用只有一個隱藏層的網路結構作為樣例
BATCH_SIZE = 100        #一個訓練batch中的訓練資料個數．
                        #數字越小時，訓練過程越接近隨機梯度下降;數字越大，訓練越接近梯度下降
LEARNING_RATE_BASE = 0.8         #基礎的學習率
LEARNING_RATE_DECAY = 0.99       #學習率的衰減率
REGULARIZATION_RATE = 0.0001     #描述模型複雜度的正則化項在損失函式中的係數
TRAINING_STEPS = 30000           #訓練輪數
MOVING_AVERAGE_DECAY = 0.99      #滑動平均衰減率

"""
一個輔助函式，給定神經網路的輸入和所有引數，計算神經網路的前向傳播結果．在這裡定義了一個使用ＲeLU 啟用函式的三層全連線神經網路．通過加入隱藏層實現了多層網路結構，通過ＲeLU啟用函式實現了去線性化．在這個函式中也支援傳入用於計算引數平均值的類，方便在測試時使用滑動平均模型．
"""
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
    #當沒有提供滑動平均類時，直接使用引數當前的取值
    if avg_class == None:
        #計算隱藏層的前向傳播結果，這裡使用了ReLU啟用函式
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)

        """計算輸出層的前向傳播結果．因為在計算損失函式時會一併計算softmax函式，所以這裡不需要加入啟用函式．而且不加入softmax不會影響預測結果，因為預測時使用的是不同類別對應節點輸出值的相對大小，有沒有softmax層對最後分類結果的計算沒有影響，所以在計算整個神經網路的前向傳播時可以不加入最後的softmax層"""
        return tf.matmul(layer1, weights2) + biases2

    else:
        #首先使用avg_class.average函式來計算得出變數的滑動平均值，然後再計算相應的神經網路前向傳播結果
        layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) +
                            avg_class.average(biases1))
        return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)


    #訓練模型的過程
    def train(mnist):
        x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
        y_= tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')

        #生成隱藏層的引數
        weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
        biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
        #生成輸出層的引數
        weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
        biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))

        #計算在當前引數下神經網路前向傳播的結果，這裡給出的用於計算滑動平均的類為Ｎone,
        #所以函式不會使用引數的滑動平均值
        y = inference(x, None, weights1, biases1, weights2, biases2)

        #定義儲存訓練輪數的變數，這個變數不需要計算滑動平均值，所以這裡指定這個變數為不可訓練的變數，
        #在使用tensorflow訓練神經網路時，一般會將代表訓練輪數的變數指定為不可訓練的引數．
        global_step = tf.Variable(0, trainable = False)

        #給定滑動平均衰減率和訓練輪數的變數，初始化滑動平均類．
        #給定訓練輪數的變數可加快訓練早期變數的更新速度
        variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)

        #在所有代表神經網路引數的變數上使用滑動平均．其他輔助變數如global_step就不需要了．
        #tf.trainable_variable返回的就是圖上集合ＧraphKeys.TRAINABLE_VARIABLES中的元素，
        #這個集合的元素就是所有沒有指定trainable= False的引數
        variables_averages_op = variable_average.apply(tf.trainable_variables())

        #計算使用了滑動平均後的前向傳播結果
        average_y = inference(x, varibale_averages, weights1, biases1, weights2, biases2)

        #計算交叉熵作為刻畫預測值和真實值之間差距的損失函式
        cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(y, tf.argmax(y_, 1))
        #計算在當前batch中所有樣例的交叉熵平均值
        cross_entropy_mean = tf.reduce_mean(cross_entropy)

        #計算Ｌ２正則化損失函式
        regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
        #計算模型的正則化損失．一般只計算神經網路邊上權重的正則化損失，而不使用偏置項
        regularization = regularizer(weights1) + regularizer(weights2)
        #總損失等於交叉熵損失和正則化損失的和
        loss = cross_entropy + regularization
        #設定指數衰減的學習率
        learning_rate = tf.train.exponential_decay(
            LEARNING_RATE_BASE,   #基礎的學習率，隨著迭代的進行，更新變數時使用的學習率在這個基礎上遞減
            global_step,          #當前迭代的輪數
            mnist.train.num_examples/BATCH_SIZE, #過完所有訓練資料需要的迭代次數
            LEARNING_RATE_DECAY)  #學習率衰減速度

    #使用tf.train.GradientDescentOptimizer優化演算法來優化損失函式，這裡包含了交叉熵和l2正則化損失
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss,
                                                                           global_step=global_step)

    #在訓練神經網路模型時，每過一遍資料即需要通過反向傳播來更新神經網路中的引數，又要更新每一個引數的滑動平均值．為了一次完成多個操作，tensorflow提供了tf.control_dependencies和tf.group兩種機制．下面兩行程式和train_op = tf.group(train_step, variables_averages_op)是等價的．
    with tf.control_dependencies([teain_step, variables_averages_op]):
        train_op = tf.no_op(name = 'train')


    
    #檢驗使用了滑動平均模型的神經網路前向傳播結果是否正確
    """tf.argmax(average_y, 1)計算每一個樣例的預測答案．其中average_y是一個batch_size*10的二維陣列，每一行表示一個樣例的前向傳播結果．tf.argmax的第二個引數＂１＂表示選取最大值的操作僅在第一個維度中進行，也就是說，只在每一行選取最大值對應的下標．於是得到的結果時一個長度為batch的一維陣列，這個一維陣列中的值就表示了每一個樣例對應的數字識別結果．tf.equal判斷兩個張量的每一維是否相等，如果相等返回True,否則返回False."""
    correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1))
    #這個運算首先將一個布林型的數值轉換為實數型，然後計算平均值．這個平均值就是模型在這一組資料上的正確率
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

    #初始化會話並開始訓練過程
    with tf.Session() as sess:
        tf.initialize_all_variables().run

        #準備驗證資料，一般在神經網路的訓練過程中會通過驗證資料來大致判斷停止的條件和評判訓練的結果．
        validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}

        #準備測試資料，在真實的應用中，這部分資料在訓練時是不可見的，這個資料只是作為模型優劣的最後評價標準．
        test_feed = {x:mnist.test.images, y_:mnist.test.labels}

        #迭代的訓練神經網路
        for i in range(TRAINING_STEPS):
            #每１０００輪輸出一次在驗證資料集上的測試結果
            if i %1000 == 0:
                """計算滑動平均模型在驗證資料上的結果，因為ＭＮＩＳＴ資料集較小，所以一次可以處理所有的驗證資料．為了計算方便，本樣例沒有把驗證資料劃分為更小的batch．當神經網路模型比較複雜或者驗證資料比較大時，太大的batcg會導致計算時間過長甚至發生記憶體溢位的錯誤．"""
                validate_acc = sess.run(accuracy, feed_dict=validate_feed)
                print("After %d training step(s), validation accuracy"
                      "using average model is %g " %(i, validate_acc))

                #產生這一輪使用的一個batch的訓練資料，並執行訓練過程
                xs,ys = mnist.train.next_batch(BATCH_SIZE)
                sess.run(train_op, feed_dict={x: xs, y_:ys})

            #在訓練結束之後，在測試資料上檢測神經網路模型的最終正確率
            test_acc = sess.run(accuracy, feed_dict=test_feed)
            print("After %d training step(s), test accuracy using average"
                  "model is %g "% (TRAINING_STEPS, test_acc))

#主程式入口
def main(argv=None):
    #宣告處理ＭＮＩＳＴ資料集的類，這個類在初始化時會自動下載資料
    mnist = input_data.read_data_sets("/tmp/data", one_hot=True)
    train(mnist)

#tensorflow提供的一個主程式入口，tf.app.run會呼叫上面定義的main函式
if __name__ == '__main__':
    tf.app.run()

基於Tensorflow+MNIST的前向傳播神經網路

import tensorflow as tf from tensorflow.example.tutorials.mnist import imput_data #MNIST資料集相關的常數 INPUT_NODE = 784 #輸入層的節點數，這裡等於圖片的畫素 OUTPUT_

基於Tensorflow+MNIST的LeNet-5神經網路

"""#!coding:utf8 #調整輸入資料placeholder的格式，輸入為一個四維矩陣 x = tf.placeholder(tf.float32,[ BATCH_SIZE, #第一維表一個batch中樣例的個數

Tensorflow實戰-前向傳播演算法

本文介紹最簡單的全連線網路結構的前向傳播演算法之所以稱之為全連線神經網路，是因為相鄰兩層之間任意兩個節點之間都有連線以一個簡單的判斷零件是否合格的三層全連線神經網路作為例子記x=[x1,x2]，w1=，w2= 通過矩陣乘法表示如下： a = tf.matmul(

利用tensorflow實現前向傳播

import tensorflow as tfw1 = tf.Variable(tf.random_normal((2, 3), stddev=1, seed=1))w2 = tf.Variable(tf.random_normal((3, 1), stddev=1, seed=1))x = tf.const

學習筆記TF057:TensorFlow MNIST，卷積神經網路、迴圈神經網路、無監督學習

構建模型。定義輸入資料，預處理資料。讀取資料MNIST，得到訓練集圖片、標記矩陣，測試集圖片標記矩陣。trX、trY、teX、teY 資料矩陣表現。trX、teX形狀變為[-1,28,28,1]，-1 不考慮輸入圖片數量，28x28 圖片長、寬畫素數，1

基於TensorFlow訓練的人臉識別神經網路

訓練一個神經網路能讓她認得我這段時間正在學習tensorflow的卷積神經網路部分，為了對卷積神經網路能夠有一個更深的瞭解，自己動手實現一個例程是比較好的方式，所以就選了一個這樣比較有點意思的專案。想要她認得我，就需要給她一些我的照片，讓她記住我的人臉特徵，為了讓她區分我和

TensorFlow 深度學習框架（1）-- 神經網路與前向傳播

基本概念：計算圖，張量，會話計算圖是相互運算不影響的兩個計算模型，是定義計算的執行，且互不影響#在TensorFlow程式中，系統會自動維護一個預設的計算圖，也支援通過tf.Graph 生成新的計算圖 #不同計算圖上的張量和運算都不會共享 import tensorflow

Tensorflow實現神經網路的前向傳播

我們構想有一個神經網路，輸入為兩個input，中間有一個hidden layer，這個hiddenlayer當中有三個神經元，最後有一個output。圖例如下：在實現這個神經網路的前向傳播之前，我們先補充一下重要的知識。一.權重w以及input的初始

python神經網路前向傳播

####### 隨機變數初始化 #正態分佈，去掉種子點後，每次產生的隨機數不一樣 w = tf.Variable(tf.random_normal([2.3], stddev = 2, mean = 0, seed = 1)) #去掉過大偏離點的正態分佈 w = tf.Variable

乾貨 | 深度學習之卷積神經網路（CNN）的前向傳播演算法詳解

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】：排名第一【機器學習】：排名第一【Python】：排名第三【演算法】：排名第四前言在（乾貨 | 深度學習之卷積神經網路(CNN)的模型結構）中，我們對CNN的模型結構做了總結，這裡我們就在CNN的模型基礎上，看看CNN的前向傳播演算法是什麼樣

【西瓜書第5章】用例項理解神經網路前向傳播和反向傳播

感覺寫部落格編輯公式什麼的好麻煩~ 因此就把學習記錄用筆記圖片的形式展現啦>_< 首先先了解一下梯度下降（emmm 不知道為什麼當時就寫斜了，就當活動脖子了hhh）：然後下面是一個三層的神經網路，每個神經元內部可以看作有兩部分組成，比如對於h1來說，包含neth1和o

深度神經網路（DNN）模型與前向傳播演算法

　　　　深度神經網路（Deep Neural Networks，以下簡稱DNN）是深度學習的基礎，而要理解DNN，首先我們要理解DNN模型，下面我們就對DNN的模型與前向傳播演算法做一個總結。 1. 從感知機到神經網路　　　　在感知機原理小結中，我們介紹過感知機的模型，它是一個有若干輸入和一個輸出的模型，

深度學習torch之三（神經網路的前向傳播和反向傳播以及損失函式的基本操作）

1.神經網路的前向傳播和反向傳播 require'image'; input=torch.rand(1,32,32) itorch.image(input) 隨即生產一張照片，1通道，32x32畫素的。為了直觀像是，匯入image包，然後用itorch.image（）方法

CNN卷積神經網路--反向傳播（2，前向傳播）

　卷積層：卷積層的輸入要麼來源於輸入層，要麼來源於取樣層，如上圖紅色部分。卷積層的每一個map都有一個大小相同的卷積核，Toolbox裡面是5*5的卷積核。下面是一個示例，為了簡單起見，卷積核大小為2*2，上一層的特徵map大小為4*4，用這個卷積在圖片上滾一遍，得到一個一個(4-2+1)*（4-2+1）=3

前向傳播和反向傳播（以簡單神經網路為例）

在神經網路模型中包括前向傳播和反向傳播那麼究竟什麼是前向傳播，什麼是反向傳播呢前向傳播：說的通俗一點就是從輸入到得到損失值的過程，當然不僅僅是這麼簡單，中間還經過了一些處理，那麼這些處理包括什麼呢：1：從輸入層開始：假設是一個形狀是（2，3）2：經過權重引數（w（3，取決你的

使用前向傳播和反向傳播的神經網路程式碼

本程式碼使用監督學習的方法來更合理的設定引數取值，設定神經網路引數的過程就是神經網路的訓練過程。使用監督學習的方式設定神經網路引數需要有一個標註好的訓練資料集batch，監督學習最重要的思想就是，在已知答案的標註資料集上，模型給出的預測結果要儘量接近真實的答

《神經網路的梯度推導與程式碼驗證》之FNN（DNN）的前向傳播和反向梯度推導

在《神經網路的梯度推導與程式碼驗證》之數學基礎篇：矩陣微分與求導中，我們總結了一些用於推導神經網路反向梯度求導的重要的數學技巧。此外，通過一個簡單的demo，我們初步瞭解了使用矩陣求導來批量求神經網路引數的做法。在本篇章，我們將專門針對DNN/FNN這種網路結構進行前向傳播介紹和反向梯度推導。更多相關內容請見

《神經網路的梯度推導與程式碼驗證》之CNN的前向傳播和反向梯度推導

在FNN（DNN）的前向傳播，反向梯度推導以及程式碼驗證中，我們不僅總結了FNN（DNN）這種神經網路結構的前向傳播和反向梯度求導公式，還通過tensorflow的自動求微分工具驗證了其準確性。在本篇章，我們將專門針對CNN這種網路結構進行前向傳播介紹和反向梯度推導。更多相關內容請見《神經網路的梯度推導與程式

《神經網路的梯度推導與程式碼驗證》之LSTM的前向傳播和反向梯度推導

前言在本篇章，我們將專門針對LSTM這種網路結構進行前向傳播介紹和反向梯度推導。關於LSTM的梯度推導，這一塊確實挺不好掌握，原因有：一些經典的deep learning 教程，例如花書缺乏相關的內容一些經典的論文不太好看懂，例如On the difficulty of training Recur

1個TensorFlow樣例，終於明白如何實現前向傳播過程？

tensorflow神經網絡的結構，就是不同神經元間的連接結構–圖示了一個三層全連接神經網絡。神經元結構的輸出，是所有輸入的加權、加上偏置項，再經過一個激活(傳遞)函數得到。全連接神經網絡全連接神經網絡，就是相鄰兩層之間，任意兩個節點之間都有連接。–這也是其與後面介紹的卷積層、LSTM結構的區分。–除了輸入層

基於Tensorflow+MNIST的前向傳播神經網路

相關推薦