1. 程式人生 > >CS231n學習筆記--2.NN1

CS231n學習筆記--2.NN1

1.啟用函式對於神經網路來說是必要的,因為沒有它,無論有多少層最終都可以化簡為線性函式;

2.常用啟用函式:每個啟用函式都是對一個數做操作。

啟用函式 影象 公式 優缺點
sigmoid

1.當輸出接近0或1時對應的導數接近0,這會導致梯度消散;

2.sigmoid的輸出不以0為中心,這將導致反向傳播時W的gradient要麼是全正,要麼是全負,這將導致權值更新的路徑是一個zig-zag路徑,使收斂變慢。(不過批處理可以緩解這種問題)

tanh 還是存在梯度消散的問題,但是解決了輸出不以0為中心的問題,因此在實際中比sigmoid表現要好。
ReLU f(x) = max(0, x)

優點:緩解梯度消散的問題,計算簡單;

缺點:當有一個很大的梯度流回ReLU時,因為max(0,x) = 1,當x>0時,這可能導致權值有很大的更新,權值更新了很大後有可能會導致對所有的後續訓練資料Wx+b<0, 這樣這個ReLU從此就dead了。並且這種變化時不可逆的,當learning rate設定的很大時就容易發生這種情況,有時會導致40%的ReLU都dead。設定合適的learning rate會避免這種情況。