深度學習基礎--DL原理研究2
阿新 • • 發佈:2018-11-07
深度學習神經網路需要更深而非更廣
《On the Number of Linear Regions of Deep Neural Networks》中有解釋。
這篇文章證明了,在神經元總數相當的情況下,增加網路深度可以使網路產生更多的線性區域。
深度的貢獻是指數增長的,而寬度的貢獻是線性的。
摺紙”這個比喻大概是這麼一回事。首先我們知道一個ReLU單元y=ReLU(Wx+b)會在輸入空間中產生一個超平面Wx+b=0,把輸入空間分成兩個部分,在負半空間上輸出值y=0,在正半空間上輸出y=Wx+b。這是一個分片線性函式,有兩個線性區域。如果輸入空間是二維的,這就好比拿一張紙,沿Wx+b=0折了一下,折出兩個區域。
兩個隱層的網路。第二層的一個ReLU單元會在第二層的輸入空間,也就是第一層輸出的值域上,形成一個超平面,並將第一層的值域分成兩個區域。而我們注意到,第一層可能會把不同的輸入值對映到相同的輸出值,因此在第一層的值域上多一個區域,就可能在輸入空間上多出好幾個區域。這就好比拿一張紙,折幾下,折出幾個區域,然後不開啟,再折一下。那麼最後折的折一下,就會在之前折出的多個區域中新增一個區域。
一個大小為N的全連線層,後跟一個ReLU非線性,可以將一個向量空間切割成N個分段線性塊。新增第二個ReLU層,進一步將空間細分為N個以上的塊,在輸入空間中產生N^ 2個分段線性區域,3個層就是N^3。
使用ReLU非線性單元的神經網路在數學上相當於一個分片線性函式,線性區域越多,神經網路的非線性性就越強,也就更有可能在實際任務中取得好的效果。