1. 程式人生 > >訓練神經網路的五大演算法

訓練神經網路的五大演算法

神經網路模型的每一類學習過程通常被歸納為一種訓練演算法。訓練的演算法有很多,它們的特點和效能各不相同。

問題的抽象

人們把神經網路的學習過程轉化為求損失函式f的最小值問題。一般來說,損失函式包括誤差項和正則項兩部分。誤差項衡量神經網路模型在訓練資料集上的擬合程度,而正則項則是控制模型的複雜程度,防止出現過擬合現象。

損失函式的函式值由模型的引數(權重值和偏置值)所決定。我們可以把兩部分引數合併為一個n維的權重向量,記為w。下圖是損失函式f(w)的圖示。

如上圖所示,w*是損失函式的最小值。在空間內任意選擇一個點A,我們都能計算得到損失函式的一階、二階導數。一階導數可以表示為一個向量:

if(w) = df/dwi (i = 1,…,n)

同樣的,損失函式的二階導數可以表示為海森矩陣( Hessian Matrix ):

Hi,jf(w) = d2f/dwi·dwj (i,j = 1,…,n)

多變數的連續可微分函式的求解問題一直被人們廣泛地研究。許多的傳統方法都能被直接用於神經網路模型的求解。

一維優化方法

儘管損失函式的值需要由多個引數決定,但是一維優化方法在這裡也非常重要。這些方法常常用於訓練神經網路模型。

許多訓練演算法首先計算得到一個訓練的方向d,以及速率η來表示損失值在此方向上的變化,f(η)。下圖片展示了這種一維函式。

f和η*在η1和η2所在的區間之內。

由此可見,一維優化方法就是尋找到某個給定的一維函式的最小值。黃金分段法和Brent方法就是其中兩種廣泛應用的演算法。這兩種演算法不斷地縮減最小值的範圍,直到η1和η2兩點之間的距離小於設定的閾值。

多維優化方法

我們把神經網路的學習問題抽象為尋找引數向量w*的問題,使得損失函式f在此點取到最小值。假設我們找到了損失函式的最小值點,那麼就認為神經網路函式在此處的梯度等於零。

通常情況下,損失函式屬於非線性函式,我們很難用訓練演算法準確地求得最優解。因此,我們嘗試在引數空間內逐步搜尋,來尋找最優解。每搜尋一步,重新計算神經網路模型的引數,損失值則相應地減小。

我們先隨機初始化一組模型引數。接著,每次迭代更新這組引數,損失函式值也隨之減小。當某個特定條件或是終止條件得到滿足時,整個訓練過程即結束。

現在我們就來介紹幾種神經網路的最重要訓練演算法。

1. 梯度下降法(Gradient descent)

梯度下降方法是最簡單的訓練演算法。它僅需要用到梯度向量的資訊,因此屬於一階演算法。

我們定義f(wi) = fi and ᐁf(wi) = gi。演算法起始於W0點,然後在第i步沿著di = -gi方向從wi移到wi+1,反覆迭代直到滿足終止條件。梯度下降演算法的迭代公式為:

wi+1 = wi - di·ηi, i=0,1,…

引數η是學習率。這個引數既可以設定為固定值,也可以用一維優化方法沿著訓練的方向逐步更新計算。人們一般傾向於逐步更新計算學習率,但很多軟體和工具仍舊使用固定的學習率。

下圖是梯度下降訓練方法的流程圖。如圖所示,引數的更新分為兩步:第一步計算梯度下降的方向,第二步計算合適的學習率。

梯度下降方法有一個嚴重的弊端,若函式的梯度變化如圖所示呈現出細長的結構時,該方法需要進行很多次迭代運算。而且,儘管梯度下降的方向就是損失函式值減小最快的方向,但是這並不一定是收斂最快的路徑。下圖描述了此問題。

當神經網路模型非常龐大、包含上千個引數時,梯度下降方法是我們推薦的演算法。因為此方法僅需要儲存梯度向量(n空間),而不需要儲存海森矩陣(n2空間)

2.牛頓演算法(Newton’s method)

因為牛頓演算法用到了海森矩陣,所以它屬於二階演算法。此演算法的目標是使用損失函式的二階偏導數尋找更好的學習方向。

我們定義f(wi) = fi, ᐁf(wi) = gi and Hf(wi) = Hi。用泰勒展開式估計函式f在w0值

f = f0 + g0 · (w - w0) + 0.5 · (w - w0)2 · H0

H0是函式f在w0的海森矩陣值。在f(w)的最小值處g = 0,我們得到了第二個等式

g = g0 + H0 · (w - w0) = 0

因此,將引數初始化在w0,牛頓演算法的迭代公式為

wi+1 = wi - Hi-1·gi, i = 0,1,…

Hi-1·gi 被稱為牛頓項。值得注意的是,如果海森矩陣是一個非正定矩陣,那麼引數有可能朝著最大值的方向移動,而不是最小值的方向。因此損失函式值並不能保證在每次迭代都減小。為了避免這種問題,我們通常會對牛頓演算法的等式稍作修改:

wi+1 = wi - (Hi-1·gi) ·ηi, i=0,1,…

學習率η既可以設為固定值,也可以動態調整。向量d = Hi-1·gi被稱為牛頓訓練方向。

下圖展示的是牛頓法的流程圖。引數的更新也分為兩步,計算牛頓訓練方向和合適的學習率。

牛頓法的效能如下圖所示。從相同的初始值開始尋找損失函式的最小值,它比梯度下降方法需要更少的步驟。

然而,牛頓法的難點在於準確計算海森矩陣和其逆矩陣需要大量的計算資源。

3.共軛梯度法(Conjugate gradient)

共軛梯度法介於梯度下降法與牛頓法之間。它的初衷是解決傳統梯度下降法收斂速度太慢的問題。不像牛頓法,共軛梯度法也避免了計算和儲存海森矩陣。

共軛梯度法的搜尋是沿著共軛方向進行的,通常會比沿著梯度下降法的方向收斂更快。這些訓練方向與海森矩陣共軛。

我們將d定義為訓練方向向量。然後,將引數向量和訓練方向訓練分別初始化為w0和d0 = -g0,共軛梯度法的方向更新公式為:

di+1 = gi+1 + di·γi, i=0,1,…

其中γ是共軛引數,計算它的方法有許多種。其中兩種常用的方法分別是Fletcher 和 Reeves 以及 Polak 和 Ribiere發明的。對於所有的共軛梯度演算法,訓練方向會被週期性地重置為梯度的負值。

引數的更新方程為:

wi+1 = wi + di·ηi, i=0,1,…

下圖是共軛梯度法訓練過程的流程圖。引數更新的步驟分為計算共軛梯度方向和計算學習率兩步。

此方法訓練神經網路模型的效率被證明比梯度下降法更好。由於共軛梯度法不需要計算海森矩陣,當神經網路模型較大時我們也建議使用。

4. 柯西-牛頓法(Quasi-Newton method)

由於牛頓法需要計算海森矩陣和逆矩陣,需要較多的計算資源,因此出現了一個變種演算法,稱為柯西-牛頓法,可以彌補計算量大的缺陷。此方法不是直接計算海森矩陣及其逆矩陣,而是在每一次迭代估計計算海森矩陣的逆矩陣,只需要用到損失函式的一階偏導數。

海森矩陣是由損失函式的二階偏導陣列成。柯西-牛頓法的主要思想是用另一個矩陣G來估計海森矩陣的逆矩陣,只需要損失函式的一階偏導數。柯西-牛頓法的更新方程可以寫為:

wi+1 = wi - (Gi·gi)·ηi, i=0,1,…

學習率η既可以設為固定值,也可以動態調整。海森矩陣逆矩陣的估計G有多種不同型別。兩種常用的型別是Davidon–Fletcher–Powell formula (DFP)和Broyden–Fletcher–Goldfarb–Shanno formula (BFGS)。

柯西-牛頓法的流程圖如下所示。引數更新的步驟分為計算柯西-牛頓訓練方向和計算學習率。

許多情況下,這是預設選擇的演算法:它比梯度下降法和共軛梯度法更快,而不需要準確計算海森矩陣及其逆矩陣。

5. Levenberg-Marquardt演算法

Levenberg-Marquardt演算法又稱為衰減的最小平方法,它針對損失函式是平方和誤差的形式。它也不需要準確計算海森矩陣,需要用到梯度向量和雅各布矩陣。

假設損失函式f是平方和誤差的形式:

f = ∑ ei2, i=0,…,m

其中m是訓練樣本的個數。

我們定義損失函式的雅各布矩陣由誤差項對引數的偏導陣列成,

Ji,jf(w) = dei/dwj (i = 1,…,m & j = 1,…,n)

m是訓練集中的樣本個數,n是神經網路的引數個數。雅各布矩陣的規模是m·n

損失函式的梯度向量是:

ᐁf = 2 JT·e

e是所有誤差項組成的向量。

最後,我們可以用這個表示式來估計計算海森矩陣。

Hf ≈ 2 JT·J + λI

λ是衰減因子,以確保海森矩陣是正的,I是單位矩陣。

此演算法的引數更新公式如下:

wi+1 = wi - (JiT·JiiI)-1·(2 JiT·ei), i=0,1,…

若衰減因子λ設為0,相當於是牛頓法。若λ設定的非常大,這就相當於是學習率很小的梯度下降法。

引數λ的初始值非常大,因此前幾步更新是沿著梯度下降方向的。如果某一步迭代更新失敗,則λ擴大一些。否則,λ隨著損失值的減小而減小,Levenberg-Marquardt接近牛頓法。這個過程可以加快收斂的速度。

下圖是Levenberg-Marquardt演算法訓練過程的流程圖。第一步計算損失值、梯度和近似海森矩陣。然後衰減引數和衰減係數。

由於Levenberg-Marquardt演算法主要針對平方和誤差類的損失函式。因此,在訓練這類誤差的神經網路模型時速度非常快。但是這個演算法也有一些缺點。首先,它不適用於其它型別的損失函式。而且,它也不相容正則項。最後,如果訓練資料和網路模型非常大,雅各布矩陣也會變得很大,需要很多記憶體。因此,當訓練資料或是模型很大時,我們並不建議使用Levenberg-Marquardt演算法。

記憶體使用和速度的比較

下圖繪製了本文討論的五種演算法的計算速度和記憶體需求。如圖所示,梯度下降法往往是最慢的訓練方法,它所需要的記憶體也往往最少。相反,速度最快的演算法一般是Levenberg-Marquardt,但需要的記憶體也更多。柯西-牛頓法較好地平衡了兩者。

總之,如果我們的神經網路模型有上千個引數,則可以用節省儲存的梯度下降法和共軛梯度法。如果我們需要訓練很多網路模型,每個模型只有幾千個訓練資料和幾百個引數,則Levenberg-Marquardt可能會是一個好選擇。其餘情況下,柯西-牛頓法的效果都不錯

本文原地址:http://geek.csdn.net/news/detail/109739