TensorFlow學習筆記(六)—— MNIST —— 入門
MNIST機器學習入門
這個教程的目標讀者是對機器學習和TensorFlow都不太瞭解的新手。如果你已經瞭解MNIST和softmax迴歸(softmax regression)的相關知識,你可以閱讀這個快速上手教程。
當我們開始學習程式設計的時候,第一件事往往是學習列印"Hello World"。就好比程式設計入門有Hello World,機器學習入門有MNIST。
MNIST是一個入門級的計算機視覺資料集,它包含各種手寫數字圖片:
它也包含每一張圖片對應的標籤,告訴我們這個是數字幾。比如,上面這四張圖片的標籤分別是5,0,4,1。
在此教程中,我們將訓練一個機器學習模型用於預測圖片裡面的數字。我們的目的不是要設計一個世界一流的複雜模型 -- 儘管我們會在之後給你原始碼去實現一流的預測模型 -- 而是要介紹下如何使用TensorFlow。所以,我們這裡會從一個很簡單的數學模型開始,它叫做Softmax Regression。
對應這個教程的實現程式碼很短,而且真正有意思的內容只包含在三行程式碼裡面。但是,去理解包含在這些程式碼裡面的設計思想是非常重要的:TensorFlow工作流程和機器學習的基本概念。因此,這個教程會很詳細地介紹這些程式碼的實現原理。
MNIST資料集
MNIST資料集的官網是Yann LeCun's website。在這裡,我們提供了一份python原始碼用於自動下載和安裝這個資料集。你可以下載這份程式碼,然後用下面的程式碼匯入到你的專案裡面,也可以直接複製貼上到你的程式碼檔案裡面。
import input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
下載下來的資料集被分成兩部分:60000行的訓練資料集(mnist.train
)和10000行的測試資料集(mnist.test
)。這樣的切分很重要,在機器學習模型設計時必須有一個單獨的測試資料集不用於訓練而是用來評估這個模型的效能,從而更加容易把設計的模型推廣到其他資料集上(泛化)。
正如前面提到的一樣,每一個MNIST資料單元有兩部分組成:一張包含手寫數字的圖片和一個對應的標籤。我們把這些圖片設為“xs”,把這些標籤設為“ys”。訓練資料集和測試資料集都包含xs和ys,比如訓練資料集的圖片是 mnist.train.images
,訓練資料集的標籤是 mnist.train.labels
。
每一張圖片包含28畫素X28畫素。我們可以用一個數字陣列來表示這張圖片:
我們把這個陣列展開成一個向量,長度是 28x28 = 784。如何展開這個陣列(數字間的順序)不重要,只要保持各個圖片採用相同的方式展開。從這個角度來看,MNIST資料集的圖片就是在784維向量空間裡面的點, 並且擁有比較複雜的結構 (提醒: 此類資料的視覺化是計算密集型的)。
展平圖片的數字陣列會丟失圖片的二維結構資訊。這顯然是不理想的,最優秀的計算機視覺方法會挖掘並利用這些結構資訊,我們會在後續教程中介紹。但是在這個教程中我們忽略這些結構,所介紹的簡單數學模型,softmax迴歸(softmax regression),不會利用這些結構資訊。
因此,在MNIST訓練資料集中,mnist.train.images
是一個形狀為 [60000, 784]
的張量,第一個維度數字用來索引圖片,第二個維度數字用來索引每張圖片中的畫素點。在此張量裡的每一個元素,都表示某張圖片裡的某個畫素的強度值,值介於0和1之間。
相對應的MNIST資料集的標籤是介於0到9的數字,用來描述給定圖片裡表示的數字。為了用於這個教程,我們使標籤資料是"one-hot vectors"。 一個one-hot向量除了某一位的數字是1以外其餘各維度數字都是0。所以在此教程中,數字n將表示成一個只有在第n維度(從0開始)數字為1的10維向量。比如,標籤0將表示成([1,0,0,0,0,0,0,0,0,0,0])。因此, mnist.train.labels
是一個 [60000, 10]
的數字矩陣。
現在,我們準備好可以開始構建我們的模型啦!
Softmax迴歸介紹
我們知道MNIST的每一張圖片都表示一個數字,從0到9。我們希望得到給定圖片代表每個數字的概率。比如說,我們的模型可能推測一張包含9的圖片代表數字9的概率是80%但是判斷它是8的概率是5%(因為8和9都有上半部分的小圓),然後給予它代表其他數字的概率更小的值。
這是一個使用softmax迴歸(softmax regression)模型的經典案例。softmax模型可以用來給不同的物件分配概率。即使在之後,我們訓練更加精細的模型時,最後一步也需要用softmax來分配概率。
softmax迴歸(softmax regression)分兩步:第一步
為了得到一張給定圖片屬於某個特定數字類的證據(evidence),我們對圖片畫素值進行加權求和。如果這個畫素具有很強的證據說明這張圖片不屬於該類,那麼相應的權值為負數,相反如果這個畫素擁有有利的證據支援這張圖片屬於這個類,那麼權值是正數。
下面的圖片顯示了一個模型學習到的圖片上每個畫素對於特定數字類的權值。紅色代表負數權值,藍色代表正數權值。
我們也需要加入一個額外的偏置量(bias),因為輸入往往會帶有一些無關的干擾量。因此對於給定的輸入圖片 x 它代表的是數字 i 的證據可以表示為
其中 代表權重, 代表數字 i 類的偏置量,j 代表給定圖片 x 的畫素索引用於畫素求和。然後用softmax函式可以把這些證據轉換成概率 y:
這裡的softmax可以看成是一個激勵(activation)函式或者連結(link)函式,把我們定義的線性函式的輸出轉換成我們想要的格式,也就是關於10個數字類的概率分佈。因此,給定一張圖片,它對於每一個數字的吻合度可以被softmax函式轉換成為一個概率值。softmax函式可以定義為:
展開等式右邊的子式,可以得到:
但是更多的時候把softmax模型函式定義為前一種形式:把輸入值當成冪指數求值,再正則化這些結果值。這個冪運算表示,更大的證據對應更大的假設模型(hypothesis)裡面的乘數權重值。反之,擁有更少的證據意味著在假設模型裡面擁有更小的乘數係數。假設模型裡的權值不可以是0值或者負值。Softmax然後會正則化這些權重值,使它們的總和等於1,以此構造一個有效的概率分佈。(更多的關於Softmax函式的資訊,可以參考Michael Nieslen的書裡面的這個部分,其中有關於softmax的可互動式的視覺化解釋。)
對於softmax迴歸模型可以用下面的圖解釋,對於輸入的xs
加權求和,再分別加上一個偏置量,最後再輸入到softmax函式中:
如果把它寫成一個等式,我們可以得到:
我們也可以用向量表示這個計算過程:用矩陣乘法和向量相加。這有助於提高計算效率。(也是一種更有效的思考方式)
更進一步,可以寫成更加緊湊的方式:
實現迴歸模型
為了用python實現高效的數值計算,我們通常會使用函式庫,比如NumPy,會把類似矩陣乘法這樣的複雜運算使用其他外部語言實現。不幸的是,從外部計算切換回Python的每一個操作,仍然是一個很大的開銷。如果你用GPU來進行外部計算,這樣的開銷會更大。用分散式的計算方式,也會花費更多的資源用來傳輸資料。
TensorFlow也把複雜的計算放在python之外完成,但是為了避免前面說的那些開銷,它做了進一步完善。Tensorflow不單獨地執行單一的複雜計算,而是讓我們可以先用圖描述一系列可互動的計算操作,然後全部一起在Python之外執行。(這樣類似的執行方式,可以在不少的機器學習庫中看到。)
使用TensorFlow之前,首先匯入它:
import tensorflow as tf
我們通過操作符號變數來描述這些可互動的操作單元,可以用下面的方式建立一個:
x = tf.placeholder("float", [None, 784])
x
不是一個特定的值,而是一個佔位符placeholder
,我們在TensorFlow執行計算時輸入這個值。我們希望能夠輸入任意數量的MNIST影象,每一張圖展平成784維的向量。我們用2維的浮點數張量來表示這些圖,這個張量的形狀是[None,784 ]
。(這裡的None
表示此張量的第一個維度可以是任何長度的。)
我們的模型也需要權重值和偏置量,當然我們可以把它們當做是另外的輸入(使用佔位符),但TensorFlow有一個更好的方法來表示它們:Variable
。 一個Variable
代表一個可修改的張量,存在在TensorFlow的用於描述互動性操作的圖中。它們可以用於計算輸入值,也可以在計算中被修改。對於各種機器學習應用,一般都會有模型引數,可以用Variable
表示。
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
我們賦予tf.Variable
不同的初值來建立不同的Variable
:在這裡,我們都用全為零的張量來初始化W
和b
。因為我們要學習W
和b
的值,它們的初值可以隨意設定。
注意,W
的維度是[784,10],因為我們想要用784維的圖片向量乘以它以得到一個10維的證據值向量,每一位對應不同數字類。b
的形狀是[10],所以我們可以直接把它加到輸出上面。
現在,我們可以實現我們的模型啦。只需要一行程式碼!
y = tf.nn.softmax(tf.matmul(x,W) + b)
首先,我們用tf.matmul(X,W)
表示x
乘以W
,對應之前等式裡面的,這裡x
是一個2維張量擁有多個輸入。然後再加上b
,把和輸入到tf.nn.softmax
函式裡面。
至此,我們先用了幾行簡短的程式碼來設定變數,然後只用了一行程式碼來定義我們的模型。TensorFlow不僅僅可以使softmax迴歸模型計算變得特別簡單,它也用這種非常靈活的方式來描述其他各種數值計算,從機器學習模型對物理學模擬模擬模型。一旦被定義好之後,我們的模型就可以在不同的裝置上執行:計算機的CPU,GPU,甚至是手機!
訓練模型
為了訓練我們的模型,我們首先需要定義一個指標來評估這個模型是好的。其實,在機器學習,我們通常定義指標來表示一個模型是壞的,這個指標稱為成本(cost)或損失(loss),然後儘量最小化這個指標。但是,這兩種方式是相同的。
一個非常常見的,非常漂亮的成本函式是“交叉熵”(cross-entropy)。交叉熵產生於資訊理論裡面的資訊壓縮編碼技術,但是它後來演變成為從博弈論到機器學習等其他領域裡的重要技術手段。它的定義如下:
y 是我們預測的概率分佈, y' 是實際的分佈(我們輸入的one-hot vector)。比較粗糙的理解是,交叉熵是用來衡量我們的預測用於描述真相的低效性。更詳細的關於交叉熵的解釋超出本教程的範疇,但是你很有必要好好理解它。
為了計算交叉熵,我們首先需要新增一個新的佔位符用於輸入正確值:
y_ = tf.placeholder("float", [None,10])
然後我們可以用 計算交叉熵:
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
首先,用 tf.log
計算 y
的每個元素的對數。接下來,我們把 y_
的每一個元素和 tf.log(y_)
的對應元素相乘。最後,用 tf.reduce_sum
計算張量的所有元素的總和。(注意,這裡的交叉熵不僅僅用來衡量單一的一對預測和真實值,而是所有100幅圖片的交叉熵的總和。對於100個數據點的預測表現比單一資料點的表現能更好地描述我們的模型的效能。
現在我們知道我們需要我們的模型做什麼啦,用TensorFlow來訓練它是非常容易的。因為TensorFlow擁有一張描述你各個計算單元的圖,它可以自動地使用反向傳播演算法(backpropagation algorithm)來有效地確定你的變數是如何影響你想要最小化的那個成本值的。然後,TensorFlow會用你選擇的優化演算法來不斷地修改變數以降低成本。
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
在這裡,我們要求TensorFlow用梯度下降演算法(gradient descent algorithm)以0.01的學習速率最小化交叉熵。梯度下降演算法(gradient descent algorithm)是一個簡單的學習過程,TensorFlow只需將每個變數一點點地往使成本不斷降低的方向移動。當然TensorFlow也提供了其他許多優化演算法:只要簡單地調整一行程式碼就可以使用其他的演算法。
TensorFlow在這裡實際上所做的是,它會在後臺給描述你的計算的那張圖裡面增加一系列新的計算操作單元用於實現反向傳播演算法和梯度下降演算法。然後,它返回給你的只是一個單一的操作,當執行這個操作時,它用梯度下降演算法訓練你的模型,微調你的變數,不斷減少成本。
現在,我們已經設定好了我們的模型。在執行計算之前,我們需要新增一個操作來初始化我們建立的變數:
init = tf.initialize_all_variables()
現在我們可以在一個Session
裡面啟動我們的模型,並且初始化變數:
sess = tf.Session()
sess.run(init)
然後開始訓練模型,這裡我們讓模型迴圈訓練1000次!
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
該迴圈的每個步驟中,我們都會隨機抓取訓練資料中的100個批處理資料點,然後我們用這些資料點作為引數替換之前的佔位符來執行train_step
。
使用一小部分的隨機資料來進行訓練被稱為隨機訓練(stochastic training)- 在這裡更確切的說是隨機梯度下降訓練。在理想情況下,我們希望用我們所有的資料來進行每一步的訓練,因為這能給我們更好的訓練結果,但顯然這需要很大的計算開銷。所以,每一次訓練我們可以使用不同的資料子集,這樣做既可以減少計算開銷,又可以最大化地學習到資料集的總體特性。
評估我們的模型
那麼我們的模型效能如何呢?
首先讓我們找出那些預測正確的標籤。tf.argmax
是一個非常有用的函式,它能給出某個tensor物件在某一維上的其資料最大值所在的索引值。由於標籤向量是由0,1組成,因此最大值1所在的索引位置就是類別標籤,比如tf.argmax(y,1)
返回的是模型對於任一輸入x預測到的標籤值,而 tf.argmax(y_,1)
代表正確的標籤,我們可以用 tf.equal
來檢測我們的預測是否真實標籤匹配(索引位置一樣表示匹配)。
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
這行程式碼會給我們一組布林值。為了確定正確預測項的比例,我們可以把布林值轉換成浮點數,然後取平均值。例如,[True, False, True, True]
會變成 [1,0,1,1]
,取平均值後得到 0.75
.
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
最後,我們計算所學習到的模型在測試資料集上面的正確率。
print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
這個最終結果值應該大約是91%。
這個結果好嗎?嗯,並不太好。事實上,這個結果是很差的。這是因為我們僅僅使用了一個非常簡單的模型。不過,做一些小小的改進,我們就可以得到97%的正確率。最好的模型甚至可以獲得超過99.7%的準確率!(想了解更多資訊,可以看看這個關於各種模型的效能對比列表。)
比結果更重要的是,我們從這個模型中學習到的設計思想。不過,如果你仍然對這裡的結果有點失望,可以檢視下一個教程,在那裡你可以學習如何用FensorFlow構建更加複雜的模型以獲得更好的效能!
程式
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
import tensorflow as tf
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)
y_ = tf.placeholder("float", [None, 10])
cross_entropy = -tf.reduce_mean(y_ * tf.log(y))
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print(i, sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
sess.close()