1. 程式人生 > >神經網路七十年

神經網路七十年

神經網路七十年:回顧與展望

一、M-P模型


圖中,,i=1,2,…,n表示來自與當前神經元相連的其它神經元傳遞的輸入訊號,代表從神經元j 到神經元 i 的連線強度或權值,為神經元的啟用閾值或偏置,f 稱作啟用函式或轉移函式。神經元的輸出可表示為

該模型從邏輯功能器件的角度來描述神經元,M-P 模型是對生物神經元資訊處理模式的數學簡化,後續的神經網路研究工作都是以它為基礎的。

二、HEBB學習規則

Hebb 認為如果兩個神經元在同一時刻被激發,則它們之間的聯絡應該被強化,基於此所定義的 Hebb學習規則如下所示:


其中,分別表示在t+1和t時刻時,神經元j到神經元 i 之間的連線強度,而則為神經元 i 和 j 的輸出。Hebb 規則隸屬於無監督學習演算法的範疇,其主要思

想是根據兩個神經元的激發狀態來調整其連線關係,以此實現對簡單神經活動的模擬。

繼HEBB學習規則之後,有監督DELTA學習規則被提出。

三、DELTA學習規則

該規則用以解決在輸入輸出已知的情況下神經元權值的學習問題。該演算法通過對連線權值進行不斷調整以使神經元的實際輸出和期望輸出到達一致,其學習修正公式如下


其中為演算法的學習速率,為神經元 i 的期望輸出和實際輸出,表示神經元 j 在 t 時刻的狀態(啟用或抑制)。

從直觀上來說,當神經元 i 的實際輸出比期望輸出大,則減小與已啟用神經元的連線權重,同時增加與已抑制神經元的連線權重;當神經元 i 的實際輸出比期望輸出小,則增加與已啟用神經元的連線權重,同時減小與已抑制神經元的連線權重。通過這樣的調節過程,神經元會將輸入和輸出之間的正確對映關係儲存在權值中,從而具備了對資料的表示能力。Hebb 學習規則和 Delta 學習規則都是針對單個神經元而提出的

四、MARK I感知機

歷史上首個將神經網路的學習功能用於模式識別的裝置,標誌著神經網路進入了新的發展階段。感知機是二分類的線性判別模型,旨在通過最小化誤分類損失函式來優化分類超平面,從而對新的例項實現準確預測。


感知機的假設空間是定義在特徵空間中的所有線性分類器,所得的超平面把特徵空間劃分為兩部分,位於兩側的點分別為正負兩類。感知機引數的學習是基於經驗損失函式最小化的,旨在最小化誤分類點到決策平面的距離。

給定一組資料集,假設超平面 S下誤分類點的集合為 M,則感知機學習的損失函式定義為:



優化過程採用隨機梯度下降法,每次隨機選取一個誤分類點使其梯度下降。首先分別求出損失函式對w 和 b 偏導數:


然後,隨機選取一個誤分類點對 w 和 b 進行更新

其中,是學習步長。以上為感知機學習的原始形式,與之相對應的另一種結構是感知機學習的對偶形式。其基本思想是將 w 和 b 表示為所有例項點的線性組合形式,通過求解係數來得到 w 和b 。不失一般性,首先將 w 和 b 的初始值設為 0,對於誤分類點按上式對W和b更新。假設共進行了n次更新,則最終學習到的w和b為


其中,

繼感知機之後,許多新的學習型神經網路模型被提出,其中包括 B. Widrow 等人設計的自適應線性元件Adaline和由K. Steinbuch設計的被稱為學習矩陣的二進位制聯想網路及其硬體實現。

五、Hopfield神經網路模型

Hopfield 網路是一種迴圈神經網路,從輸出到輸入有反饋連線,典型的 Hopfield 神經網路模型如圖 2 所示。


圖中,每組運算放大器及其相關的電阻、電容組成的網路代表一個神經元。每個神經元有兩組輸入,一組是恆定的外部電流,另一組是來自其它運算放大器輸出的正向或反向的反饋連線。

Hopfield 將優化的目標函式轉化為網路的能量函式,對應地將待求解問題的變數用網路中神經元的狀態來表示。由這樣的表示方式可知當網路的能量衰減到穩定值時,問題的最優解也隨之求出。

Hopfield 網路一個重要的特點是它可以實現聯想記憶功能,亦即作為聯想儲存器。當網路的權係數通過學習訓練確定之後,即便輸入不完整或者部分不正確的資料,網路仍舊可以通過聯想記憶來給出完整的資料輸出結果。

六、波爾茲曼機BM


波爾茲曼機是一種由隨機神經元全連線組成的反饋神經網路,其包含一個可見層和一個隱層。網路中神經元的輸出只有兩種狀態(未啟用和啟用,用二進位制0 和 1 表示),其取值根據概率統計規則決定。波爾茲曼機具有較強的無監督學習能力,可以從資料中學習到複雜的知識規則,然而也存在著訓練和學習時間過長的問題。此外,不僅難以準確計算 BM 所表示的分佈,得到服從 BM 所表示分佈的隨機樣本也很困難。基於以上原因,對波爾茲曼機進行了改進,引入了限制波爾茲曼機RBM。

RBM 的網路結構中層內神經元之間沒有連線,儘管 RBM 所表示的分佈仍然無法有效計算,但可以通過 Gibbs 取樣得到服從 RBM 所表示分佈的隨機樣本。Hinton 於 2002 年提出了一個 RBM 學習的快速演算法(對比散度),只要隱層單元的數目足夠多時,RBM 就能擬合任意離散分佈。作為目前深度學習主要框架之一的深度信念網也是以RBM 為基本組成單元的。這一階段的神經網路已經從起初的單層結構擴充套件到了雙層,隱含層的出現使得網路具有更強的資料表示能力。

七、BP演算法

BP網路的拓撲結構包括輸入層、隱層和輸出層,它能夠在事先不知道輸入輸出具體數學表示式的情況下,通過學習來儲存這種複雜的對映關係。其網路中引數的學習通常採用反向傳播的策略,藉助最速梯度資訊來尋找使網路誤差最小化的引數組合。常見的三層 BP 網路模型如圖 4 所示。


其中,各節點的傳遞函式 f 必須滿足處處可導的條件,最常用的為 Sigmoid 函式,第 i 個神經元的淨輸入為,輸出為。如果網路輸出層第 k個神

經元的期望輸出為,則網路的平方型誤差函式為


由於 BP 演算法按照誤差函式 E 的負梯度修改權值,故權值的更新公式可表示為




BP 的誤差反向傳播思想可以概括為:利用輸出層的誤差來估計出其直接前導層的誤差,再借助於這個新的誤差來計算更前一層的誤差,按照這樣的方式逐層反傳下去便可以得到所有各層的誤差估計。BP演算法的提出在一定程度上解決了多層網路引數訓練難的問題,但是其自身也存在如下一些問題。首先,誤差在反向傳播過程中會逐漸衰減,經過多層的傳遞後將會變得很小,這使得BP在深層網路中並不可行。其次,BP採用最速梯度下降的優化思想,而實際問題的誤差函式通常不是凸的,存在眾多區域性極小值點,演算法很難得到最優解。再次,由於訓練過程依靠於導數資訊來進行權值的調整,當權值調節過大時會使大部分神經元的加權和過大,致使傳遞函式工作於S型函式的飽和區,所以權值的調整會出現停頓的情況。最後,對於一些複雜網路的優化問題,BP演算法受到學習速率的限制需要花費幾個小時甚至更長的時間來完成訓練任務。

根據研究結果,只要隱層神經元的個數足夠多,BP 神經網路就能夠保證對複雜連續對映關係的刻畫能力,具有重要的理論和現實指導意義。

八、RBF徑向基神經網路

RBF 神經網路是一種三層的前向網路,其基本工作原理是:利用 RBF 構成的隱藏層空間對低維的輸入向量進行投影,將資料變換到高維空間中去,以使原來線性不可分的問題能夠變得線性可分。


由於輸入層在 RBF 網路中僅僅起到訊號的傳輸作用,故而輸入層和隱含層之間的連線權值都為1,隱含層實現對輸入特徵的非線性投影,而輸出層則負責最後的線性加權求和。RBF 網路中待學習優化的引數包括:基函式的中心和方差以及隱含層到輸出層的連線權值。輸出層負責通過線性優化策略來實現對權值的優化,學習速度通常較快;而隱含層則需要採用非線性優化的方法對啟用函式的引數調整,故而其學習速度較慢。RBF 網路的引數學習方法按照徑向基函式中心的選取有不同的型別,主要包括自組織選取法、隨機中心法、有監督中心法和正交最小二乘法等。

以自組織法為例,其學習主要包括兩個階段,第一階段為無監督和自組織學習階段,用以確定隱含層基函式的中心及方差;第二階段是有監督學習過程,可實現隱含層到輸出層之間的連線權值的求解。RBF 網路有很快的學習收斂速度,一個很重要的原因在於其屬於區域性逼近網路,不需要學習隱含層的權值,避免了誤差在網路中耗時的逐層傳遞過程。

九、其他發展

蔡少棠等人提出了細胞神經網路(Cellular Neural Networks),斯華玲、張清華等人提出了小波神經網路,焦李成等人提出了多小波神經網路,楊淑媛等人提出了脊波神經網路,這些模型在非平穩、非線性、非高斯訊號與影象處理中表現出良好的應用潛力和價值。此後,神經網路與機器學習和模式識別的融合呈現出前所未有的局面,SVM、PCA、ICA、LDA 等模型得到廣泛關注和研究,表現出良好的效能,有力促進了這一領域的進展。其中,薄列峰等人提出的大規模 SVM是這方面的典型代表。

香港中文大學的徐蕾教授提出了 Bayes 學習機和 Y-Y 機,並證明了 EM 演算法的收斂性。

清華大學張鈸教授提出了 PLN 神經網路模型

伯明翰大學的姚新將進化計算的搜尋機制引入到人工神經網路中,提出了進化人工神經網路的概念,並且對進化神經網路進行整合以提高網路效能。

薩里大學的金耀初利用多目標遺傳演算法進行神經網路的正則化和整合,並且將網路用於複雜系統的建模和控制當中。