1. 程式人生 > >TensorFlow 訓練 MNIST 資料(二)

TensorFlow 訓練 MNIST 資料(二)

上一篇部落格講了一個簡單的基於 SoftMax 迴歸的學習模型,準確率大概在91%左右,這篇構建一個深度卷積神經網路。主要的教程還是來自於極客學院,但是講的很瑣碎,我把自己整理的思路和最後寫的完整的程式碼在這篇博文中呈現出來。

這篇文章大致構建的網路結構如下:

輸入層-->卷積層-->卷積層-->密集連線層-->輸出層。其中每一個卷積層中還有max pooling,用來進行降維,輸出層中是一個softmax層。

首先這次構建的神經網路相較上篇的神經網路來說,上次的權重矩陣和偏置矩陣直接設定為0,但是存在一個問題就是容易導致神經元輸出恆為零的情況出現,由於是對稱的容易導致0梯度問題,解決的辦法就是用一個較小的接近0的正數來初始化偏置項。

第二個改進的地方是使用卷積層,由於影象具有固有特性,因此它的一部分統計特性和其他部分是一樣的,所以這部分學習到的特徵可以應用到其他部分,所以卷積對映具有位移不變性。雖然應用了卷積來提取特徵值,但是所取到的特徵值還是太多,我們是很難處理的,另一個原因是特徵值太多的話容易出現過擬合(over-fitting)的問題。因此每一個卷積計算之後需要進行池化(pooling),下圖顯示了pooling應用於影象的四塊不重合區域:


(圖片來自UFLDL)

第三個是加入了密集連線層,這一層是將圖片最小化為7x7的,結構為有1024個神經元的全連線層。

最後一點是在輸出層之前加入了dropout過程,用來減少過擬合的問題,用一個placeholder來代表一個神經元的輸出在dropout中保持不變的概率。這樣我們可以在訓練過程中啟用dropout,在測試過程中關閉dropout。

整體的大概流程就是這樣,下面貼程式碼,有詳細註釋:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import time
import input_data
import tensorflow as tf

''' 
權重初始化
初始化為一個接近0的很小的正數
'''
def weight_variable(shape):
	initial = tf.truncated_normal(shape, stddev=0.1)
	return tf.Variable(initial)

def bias_variable(shape):
	initial = tf.constant(0.1, shape=shape)
	return tf.Variable(initial)

'''
卷積和池化,使用卷積步長為1(stride size),0邊距(padding size)
池化用簡單傳統的2x2大小的模板做max pooling
'''
def conv2d(x, W):
	return tf.nn.conv2d(x, W, strides=[1,1,1,1], padding='SAME')

def max_pool_2x2(x):
	return tf.nn.max_pool(x, ksize=[1,2,2,1],
						strides=[1,2,2,1], padding='SAME')

#計算開始時間
start = time.clock()
#MNIST資料輸入
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

x = tf.placeholder(tf.float32,[None, 784]) #影象輸入向量
W = tf.Variable(tf.zeros([784,10]))  #權重,初始化值為全零
b = tf.Variable(tf.zeros([10]))  #偏置,初始化值為全零

#第一層卷積,由一個卷積接一個maxpooling完成,卷積在每個
#5x5的patch中算出32個特徵。
#卷積的權重張量形狀是[5, 5, 1, 32],前兩個維度是patch的大小,
#接著是輸入的通道數目,最後是輸出的通道數目。 
#而對於每一個輸出通道都有一個對應的偏置量。
W_conv1 = weight_variable([5,5,1,32])
b_conv1 = bias_variable([32])

'''把x變成一個4d向量,其第2、第3維對應圖片的寬、高,最後一維代表圖片的顏色通道數(因為是灰度圖所以這裡的通道數為1,如果是rgb彩色圖,則為3)。
'''
x_image = tf.reshape(x, [-1,28,28,1])  #最後一維代表通道數目,如果是rgb則為3
#x_image權重向量卷積,加上偏置項,之後應用ReLU函式,之後進行max_polling
h_conv1 = tf.nn.relu(conv2d(x_image,W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

#實現第二層卷積

#每個5x5的patch會得到64個特徵
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)


#密集連線層
'''
圖片尺寸變為7x7,加入有1024個神經元的全連線層,把池化層輸出張量reshape成向量
乘上權重矩陣,加上偏置,然後進行ReLU
'''
W_fc1 = weight_variable([7*7*64,1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

#Dropout, 用來防止過擬合 #加在輸出層之前,訓練過程中開啟dropout,測試過程中關閉
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

#輸出層, 新增softmax層
W_fc2 = weight_variable([1024,10])
b_fc2 = bias_variable([10])

y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2) + b_fc2)

#訓練和評估模型
'''
ADAM優化器來做梯度最速下降,feed_dict 加入引數keep_prob控制dropout比例
'''
y_ = tf.placeholder("float", [None,10])
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))  #計算交叉熵
#使用adam優化器來以0.0001的學習率來進行微調
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
#判斷預測標籤和實際標籤是否匹配
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction,"float"))

#啟動建立的模型,並初始化變數
sess = tf.Session()
sess.run(tf.initialize_all_variables())

#開始訓練模型,迴圈訓練20000次
for i in range(20000):
	batch = mnist.train.next_batch(50)   #batch 大小設定為50
	if i%100 == 0:
		train_accuracy = accuracy.eval(session=sess,
						feed_dict={x:batch[0], y_:batch[1], keep_prob:1.0})
		print("step %d, train_accuracy %g" %(i,train_accuracy))
	#神經元輸出保持不變的概率 keep_prob 為0.5
	train_step.run(session=sess, feed_dict={x:batch[0], y_:batch[1], keep_prob:0.5})

#神經元輸出保持不變的概率 keep_prob 為 1,即不變,永遠保持輸出
print("test accuracy %g" %accuracy.eval(session=sess,
	feed_dict={x:mnist.test.images, y_:mnist.test.labels, keep_prob:1.0}))
	

#計算程式結束時間
end = time.clock()
print("running time is %g s" %(end-start))

------  EOF ---------

參考文獻:

http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_pros.html

http://ufldl.stanford.edu/wiki/index.php/Pooling

http://ufldl.stanford.edu/wiki/index.php/Feature_extraction_using_convolution