The Multilinear Structure of ReLU Networks
兩種非常常見的非線性單元:rectified linear units (ReLUs) 和 leaky ReLUs
我們選取binary hinge loss進行二分類
對於多分類,我們可以定義multiclass hinge loss
定義Ω為網絡的參數空間, L(ω)為loss。
由於我們選了ReLU非線性單元作為loss, 那麽L(ω)是分片線性的。對於參數空間,我們可以將其進行一個劃分,
分成有限個open cells Ωu 和 邊界N,則損失函數L(ω)在cell的內部是光滑的,在邊界上是不可微
下面我們將loss限制在某個cell Ωu上單獨考慮,並且loss擁有multilinear form. 由於multilinear form是調和的,由strong maximum principle知,極值點必定在邊界處N. 換句話說,ReLU 神經網絡 with hinge loss L(ω)是不存在可微的局部極值點的。
目前為止,我們可以知道局部極值有兩種情況,
Type I (Flat). 局部極值在cell中,loss為常值。
Type II (Sharp). 局部極值在邊界N上。
Main Result 1. 在Type II
也就是說,如果存在極值0,那麽Type II極值點都是sub-optimal的。
若我們考慮更一般的情況:fully connected networks with leaky ReLU nonlinearities. 那麽我們有以下結果,
Main Result 2. 在Type I局部極值點,L(ω)=0. 在Type II局部極值點,L(ω)>0.
在存在極值0的情況下,flat 局部極小值都是optimal的,sharp 局部極小值都是sub-optimal的。若不存在極值0,所有的局部極值點都是sharp
未完待續。。。
The Multilinear Structure of ReLU Networks