非線性激勵函式sigmoid，tanh，softplus，Relu

阿新 • • 發佈：2019-01-02

目前有四種常見的非線性激勵函式：

sigmoid函式：

tanh函式：

softplus函式：

Relu函式：

其對應得函式影象如下：

函式種類	優點	缺點
sigmoid函式	在整個定義域內可導	gradient在飽和區域非常平緩，接近於0，很容易造成vanishing gradient的問題，減緩收斂速度。算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相對大
tanh函式	在整個定義域內可導	gradient在飽和區域非常平緩，接近於0，很容易造成vanishing gradient的問題，減緩收斂速度。算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相對大
softplus函式	在整個定義域內可導	算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相對大
ReLu函式	Relu的gradient大多數情況下是常數，有助於解決深層網路的收斂問題。 ReLU更容易學習優化。因為其分段線性性質，導致其前傳，後傳，求導都是分段線性 Relu會使一部分神經元的輸出為0，這樣就造成了網路的稀疏性，並且減少了引數的相互依存關係，緩解了過擬合問題的發生，也更接近真實的神經元啟用模型。	如果後層的某一個梯度特別大，導致W更新以後變得特別大，導致該層的輸入<0，輸出為0，這時該層就會‘die’，沒有更新。當學習率比較大時可能會有40%的神經元都會在訓練開始就‘die’，因此需要對學習率進行一個好的設定。

需要注意的是：tanh特徵相差明顯時的效果會很好，在迴圈過程中會不斷擴大特徵效果顯示出來，但有是，在特徵相差比較複雜或是相差不是特別大時，需要更細微的分類判斷的時候，sigmoid效果就好了。
還有一個東西要注意，sigmoid 和 tanh作為啟用函式的話，一定要注意一定要對 input 進行歸一話，否則啟用後的值都會進入平坦區，使隱層的輸出全部趨同，但是 ReLU 並不需要輸入歸一化來防止它們達到飽和。
還有兩種改進的激勵函式：

Leaky ReLu函式：

Maxout函式：

但是這兩種並不常用

非線性激勵函式sigmoid，tanh，softplus，Relu

非線性激勵函式sigmoid，tanh，softplus，Relu

pytorch中的 relu、sigmoid、tanh、softplus 函式

python實現並繪制 sigmoid函數，tanh函數，ReLU函數，PReLU函數

為什麼引入非線性激勵函式為什麼引入relu

神經網路中的啟用函式sigmoid、 tanh 、RELU

人工神經網路中的activation function的作用以及ReLu，tanh，sigmoid激勵函式的區別

Sigmoid非線性啟用函式，FM調頻，膽機，HDR的意義

python實現並繪製 sigmoid函式，tanh函式，ReLU函式，PReLU函式

python利用matplotlib繪製sigmoid函式，tanh函式，ReLU函式，PReLU函式

常用啟用函式（sigmoid、tanh、relu、Leaky relu、prelu、rrelu、elu、softplus、softsign、softmax、MaxOut）、如何選擇合適的啟用函式

神經網路中的啟用函式（activation function）-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus

jQuery中bind（），one（），on（），live（）這幾個繫結事件函式的區別

初學，Linux下gtk+，glade，一些控制元件的使用函式

VS如何將核心函式封裝成dll、lib，並供給第三方呼叫？

Python 裝飾器函式 wraps 利用快取查詢原理，加速遞迴

大資料之scala（四） --- 模式匹配，變數宣告模式，樣例類，偏函式，泛型，型變，逆變，隱式轉換，隱式引數

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

大資料之scala（一） --- 安裝scala，簡單語法介紹，條件表示式，輸入和輸出，迴圈，函式，過程，lazy ，異常，陣列

關於陣列定義在函式外面可實現正常功能，定義在裡面不行的原因

mysql 樹操作函式，取子節點，取父節點

非線性激勵函式sigmoid，tanh，softplus，Relu

相關推薦