基於Tensorflow+MNIST的前向傳播神經網路
阿新 • • 發佈:2019-01-04
import tensorflow as tf from tensorflow.example.tutorials.mnist import imput_data #MNIST資料集相關的常數 INPUT_NODE = 784 #輸入層的節點數,這裡等於圖片的畫素 OUTPUT_NODE = 10 #輸出層節點數,這裡為0~9共10個數子 #配置神經網路的引數 LAYER1_NODE = 500 #隱藏層節點數,這裡使用只有一個隱藏層的網路結構作為樣例 BATCH_SIZE = 100 #一個訓練batch中的訓練資料個數. #數字越小時,訓練過程越接近隨機梯度下降;數字越大,訓練越接近梯度下降 LEARNING_RATE_BASE = 0.8 #基礎的學習率 LEARNING_RATE_DECAY = 0.99 #學習率的衰減率 REGULARIZATION_RATE = 0.0001 #描述模型複雜度的正則化項在損失函式中的係數 TRAINING_STEPS = 30000 #訓練輪數 MOVING_AVERAGE_DECAY = 0.99 #滑動平均衰減率 """ 一個輔助函式,給定神經網路的輸入和所有引數,計算神經網路的前向傳播結果.在這裡定義了一個使用ReLU 啟用函式的三層全連線神經網路.通過加入隱藏層實現了多層網路結構,通過ReLU啟用函式實現了去線性化.在這個函式中也支援傳入用於計算引數平均值的類,方便在測試時使用滑動平均模型. """ def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2): #當沒有提供滑動平均類時,直接使用引數當前的取值 if avg_class == None: #計算隱藏層的前向傳播結果,這裡使用了ReLU啟用函式 layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1) """計算輸出層的前向傳播結果.因為在計算損失函式時會一併計算softmax函式,所以這裡不需要加入啟用函式.而且不加入softmax不會影響預測結果,因為預測時使用的是不同類別對應節點輸出值的相對大小,有沒有softmax層對最後分類結果的計算沒有影響,所以在計算整個神經網路的前向傳播時可以不加入最後的softmax層""" return tf.matmul(layer1, weights2) + biases2 else: #首先使用avg_class.average函式來計算得出變數的滑動平均值,然後再計算相應的神經網路前向傳播結果 layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1)) return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2) #訓練模型的過程 def train(mnist): x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input') y_= tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input') #生成隱藏層的引數 weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1)) biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE])) #生成輸出層的引數 weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1)) biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE])) #計算在當前引數下神經網路前向傳播的結果,這裡給出的用於計算滑動平均的類為None, #所以函式不會使用引數的滑動平均值 y = inference(x, None, weights1, biases1, weights2, biases2) #定義儲存訓練輪數的變數,這個變數不需要計算滑動平均值,所以這裡指定這個變數為不可訓練的變數, #在使用tensorflow訓練神經網路時,一般會將代表訓練輪數的變數指定為不可訓練的引數. global_step = tf.Variable(0, trainable = False) #給定滑動平均衰減率和訓練輪數的變數,初始化滑動平均類. #給定訓練輪數的變數可加快訓練早期變數的更新速度 variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step) #在所有代表神經網路引數的變數上使用滑動平均.其他輔助變數如global_step就不需要了. #tf.trainable_variable返回的就是圖上集合GraphKeys.TRAINABLE_VARIABLES中的元素, #這個集合的元素就是所有沒有指定trainable= False的引數 variables_averages_op = variable_average.apply(tf.trainable_variables()) #計算使用了滑動平均後的前向傳播結果 average_y = inference(x, varibale_averages, weights1, biases1, weights2, biases2) #計算交叉熵作為刻畫預測值和真實值之間差距的損失函式 cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(y, tf.argmax(y_, 1)) #計算在當前batch中所有樣例的交叉熵平均值 cross_entropy_mean = tf.reduce_mean(cross_entropy) #計算L2正則化損失函式 regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE) #計算模型的正則化損失.一般只計算神經網路邊上權重的正則化損失,而不使用偏置項 regularization = regularizer(weights1) + regularizer(weights2) #總損失等於交叉熵損失和正則化損失的和 loss = cross_entropy + regularization #設定指數衰減的學習率 learning_rate = tf.train.exponential_decay( LEARNING_RATE_BASE, #基礎的學習率,隨著迭代的進行,更新變數時使用的學習率在這個基礎上遞減 global_step, #當前迭代的輪數 mnist.train.num_examples/BATCH_SIZE, #過完所有訓練資料需要的迭代次數 LEARNING_RATE_DECAY) #學習率衰減速度 #使用tf.train.GradientDescentOptimizer優化演算法來優化損失函式,這裡包含了交叉熵和l2正則化損失 train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step) #在訓練神經網路模型時,每過一遍資料即需要通過反向傳播來更新神經網路中的引數,又要更新每一個引數的滑動平均值.為了一次完成多個操作,tensorflow提供了tf.control_dependencies和tf.group兩種機制.下面兩行程式和train_op = tf.group(train_step, variables_averages_op)是等價的. with tf.control_dependencies([teain_step, variables_averages_op]): train_op = tf.no_op(name = 'train') #檢驗使用了滑動平均模型的神經網路前向傳播結果是否正確 """tf.argmax(average_y, 1)計算每一個樣例的預測答案.其中average_y是一個batch_size*10的二維陣列,每一行表示一個樣例的前向傳播結果.tf.argmax的第二個引數"1"表示選取最大值的操作僅在第一個維度中進行,也就是說,只在每一行選取最大值對應的下標.於是得到的結果時一個長度為batch的一維陣列,這個一維陣列中的值就表示了每一個樣例對應的數字識別結果.tf.equal判斷兩個張量的每一維是否相等,如果相等返回True,否則返回False.""" correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1)) #這個運算首先將一個布林型的數值轉換為實數型,然後計算平均值.這個平均值就是模型在這一組資料上的正確率 accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) #初始化會話並開始訓練過程 with tf.Session() as sess: tf.initialize_all_variables().run #準備驗證資料,一般在神經網路的訓練過程中會通過驗證資料來大致判斷停止的條件和評判訓練的結果. validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels} #準備測試資料,在真實的應用中,這部分資料在訓練時是不可見的,這個資料只是作為模型優劣的最後評價標準. test_feed = {x:mnist.test.images, y_:mnist.test.labels} #迭代的訓練神經網路 for i in range(TRAINING_STEPS): #每1000輪輸出一次在驗證資料集上的測試結果 if i %1000 == 0: """計算滑動平均模型在驗證資料上的結果,因為MNIST資料集較小,所以一次可以處理所有的驗證資料.為了計算方便,本樣例沒有把驗證資料劃分為更小的batch.當神經網路模型比較複雜或者驗證資料比較大時,太大的batcg會導致計算時間過長甚至發生記憶體溢位的錯誤.""" validate_acc = sess.run(accuracy, feed_dict=validate_feed) print("After %d training step(s), validation accuracy" "using average model is %g " %(i, validate_acc)) #產生這一輪使用的一個batch的訓練資料,並執行訓練過程 xs,ys = mnist.train.next_batch(BATCH_SIZE) sess.run(train_op, feed_dict={x: xs, y_:ys}) #在訓練結束之後,在測試資料上檢測神經網路模型的最終正確率 test_acc = sess.run(accuracy, feed_dict=test_feed) print("After %d training step(s), test accuracy using average" "model is %g "% (TRAINING_STEPS, test_acc)) #主程式入口 def main(argv=None): #宣告處理MNIST資料集的類,這個類在初始化時會自動下載資料 mnist = input_data.read_data_sets("/tmp/data", one_hot=True) train(mnist) #tensorflow提供的一個主程式入口,tf.app.run會呼叫上面定義的main函式 if __name__ == '__main__': tf.app.run()