1. 程式人生 > >深度學習激活函數們

深度學習激活函數們

ali 會有 pack 網絡 fun 默認 .html 數學 一個

如下圖,在神經元中,輸入的 inputs 通過加權,求和後,還被作用了一個函數,這個函數就是激活函數 Activation Function。

技術分享圖片

如果不用激勵函數,每一層輸出都是上層輸入的線性函數,無論神經網絡有多少層,輸出都是輸入的線性組合。
如果使用的話,激活函數給神經元引入了非線性因素,使得神經網絡可以任意逼近任何非線性函數,這樣神經網絡就可以應用到眾多的非線性模型中。

2. 常見的激活函數

(1) sigmoid函數

公式:技術分享圖片

曲線:技術分享圖片

導數:技術分享圖片

sigmoid函數也叫 Logistic 函數,用於隱層神經元輸出,取值範圍為(0,1),它可以將一個實數映射到(0,1)的區間,可以用來做二分類。

優點:

  • 便於求導的平滑函數;
  • 能壓縮數據,保證數據幅度不會有問題;
  • 適合用於前向傳播。

缺點:

  • 容易出現梯度消失(gradient vanishing)的現象:當激活函數接近飽和區時,變化太緩慢,導數接近0,根據後向傳遞的數學依據是微積分求導的鏈式法則,當前導數需要之前各層導數的乘積,幾個比較小的數相乘,導數結果很接近0,從而無法完成深層網絡的訓練。
  • Sigmoid的輸出不是0均值(zero-centered)的:這會導致後層的神經元的輸入是非0均值的信號,這會對梯度產生影響。以 f=sigmoid(wx+b)為例, 假設輸入均為正數(或負數),那麽對w的導數總是正數(或負數),這樣在反向傳播過程中要麽都往正方向更新,要麽都往負方向更新,導致有一種捆綁效果,使得收斂緩慢
  • 冪運算,使得其相對耗時

(2) Tanh函數(雙曲正切函數)

公式:技術分享圖片

與sigmoid函數關系:技術分享圖片

曲線:技術分享圖片

導數:技術分享圖片

tanh函數也稱為雙切正切函數,取值範圍為[-1,1]。

一個優點就是與 sigmoid 的區別是,tanh 是 0 均值的,因此實際應用中 tanh 會比 sigmoid 更好。

缺點類似sigmoid,雖然收斂速度相對快了,但也存在梯度彌散,而且也有冪計算,相對耗時。

(3) ReLU(線性修正單元)

公式:技術分享圖片

曲線:技術分享圖片

當輸入 x<0 時,輸出為 0,當 x> 0 時,輸出為 x。

優點:

(1)SGD算法的收斂速度比 sigmoid 和 tanh 快;(梯度不會飽和,解決了梯度消失問題)

(2)計算復雜度低,不需要進行指數運算;

(3)適合用於後向傳播。

缺點:

(1)ReLU的輸出不是zero-centered;

(2)Dead ReLU Problem(神經元壞死現象):某些神經元可能永遠不會被激活,導致相應參數永遠不會被更新(在負數部分,梯度為0)。產生這種現象的兩個原因:參數初始化問題;learning rate太高導致在訓練過程中參數更新太大。 解決方法:采用Xavier初始化方法,以及避免將learning rate設置太大或使用adagrad等自動調節learning rate的算法。

(3)ReLU不會對數據做幅度壓縮,所以數據的幅度會隨著模型層數的增加不斷擴張。

(4) softmax函數

公式:技術分享圖片

舉個例子來看公式的意思:

技術分享圖片 其求導往往結合交叉熵損失函數,具體見博客:https://www.cnblogs.com/CJT-blog/p/10419523.html

softmax主要用於多類分類。 softmax函數的輸出可用於表示所有類的概率分布,其中每個類的範圍為(0,1],且其輸出滿足所有類概率和為1。

為什麽要取指數,第一個原因是要模擬 max 的行為,所以要讓大的更大。第二個原因是需要一個可導的函數。

3. 更多激活函數

下面是 26 個激活函數的圖示及其一階導數,圖的右側是一些與神經網絡相關的屬性。 1. Step

技術分享圖片

激活函數 Step 更傾向於理論而不是實際,它模仿了生物神經元要麽全有要麽全無的屬性。它無法應用於神經網絡,因為其導數是 0(除了零點導數無定義以外),這意味著基於梯度的優化方法並不可行。 2. Identity

技術分享圖片

通過激活函數 Identity,節點的輸入等於輸出。它完美適合於潛在行為是線性(與線性回歸相似)的任務。當存在非線性,單獨使用該激活函數是不夠的,但它依然可以在最終輸出節點上作為激活函數用於回歸任務。 3. ReLU

技術分享圖片

修正線性單元(Rectified linear unit,ReLU)是神經網絡中最常用的激活函數。它保留了 step 函數的生物學啟發(只有輸入超出閾值時神經元才激活),不過當輸入為正的時候,導數不為零,從而允許基於梯度的學習(盡管在 x=0 的時候,導數是未定義的)。使用這個函數能使計算變得很快,因為無論是函數還是其導數都不包含復雜的數學運算。然而,當輸入為負值的時候,ReLU 的學習速度可能會變得很慢,甚至使神經元直接無效,因為此時輸入小於零而梯度為零,從而其權重無法得到更新,在剩下的訓練過程中會一直保持靜默。 4. Sigmoid

技術分享圖片

Sigmoid 因其在 logistic 回歸中的重要地位而被人熟知,值域在 0 到 1 之間。Logistic Sigmoid(或者按通常的叫法,Sigmoid)激活函數給神經網絡引進了概率的概念。它的導數是非零的,並且很容易計算(是其初始輸出的函數)。然而,在分類任務中,sigmoid 正逐漸被 Tanh 函數取代作為標準的激活函數,因為後者為奇函數(關於原點對稱)。 5. Tanh

技術分享圖片

在分類任務中,雙曲正切函數(Tanh)逐漸取代 Sigmoid 函數作為標準的激活函數,其具有很多神經網絡所鐘愛的特征。它是完全可微分的,反對稱,對稱中心在原點。為了解決學習緩慢和/或梯度消失問題,可以使用這個函數的更加平緩的變體(log-log、softsign、symmetrical sigmoid 等等) 6. Leaky ReLU

技術分享圖片

經典(以及廣泛使用的)ReLU 激活函數的變體,帶泄露修正線性單元(Leaky ReLU)的輸出對負值輸入有很小的坡度。由於導數總是不為零,這能減少靜默神經元的出現,允許基於梯度的學習(雖然會很慢)。 7. PReLU

技術分享圖片

參數化修正線性單元(Parameteric Rectified Linear Unit,PReLU)屬於 ReLU 修正類激活函數的一員。它和 RReLU 以及 Leaky ReLU 有一些共同點,即為負值輸入添加了一個線性項。而最關鍵的區別是,這個線性項的斜率實際上是在模型訓練中學習到的。 8. RReLU

技術分享圖片

隨機帶泄露的修正線性單元(Randomized Leaky Rectified Linear Unit,RReLU)也屬於 ReLU 修正類激活函數的一員。和 Leaky ReLU 以及 PReLU 很相似,為負值輸入添加了一個線性項。而最關鍵的區別是,這個線性項的斜率在每一個節點上都是隨機分配的(通常服從均勻分布)。 9. ELU

技術分享圖片

指數線性單元(Exponential Linear Unit,ELU)也屬於 ReLU 修正類激活函數的一員。和 PReLU 以及 RReLU 類似,為負值輸入添加了一個非零輸出。和其它修正類激活函數不同的是,它包括一個負指數項,從而防止靜默神經元出現,導數收斂為零,從而提高學習效率。 10. SELU

技術分享圖片

擴展指數線性單元(Scaled Exponential Linear Unit,SELU)是激活函數指數線性單元(ELU)的一個變種。其中λ和α是固定數值(分別為 1.0507 和 1.6726)。這些值背後的推論(零均值/單位方差)構成了自歸一化神經網絡的基礎(SNN)。 11. SReLU

技術分享圖片

S 型整流線性激活單元(S-shaped Rectified Linear Activation Unit,SReLU)屬於以 ReLU 為代表的整流激活函數族。它由三個分段線性函數組成。其中兩種函數的斜度,以及函數相交的位置會在模型訓練中被學習。 12. Hard Sigmoid

技術分享圖片

Hard Sigmoid 是 Logistic Sigmoid 激活函數的分段線性近似。它更易計算,這使得學習計算的速度更快,盡管首次派生值為零可能導致靜默神經元/過慢的學習速率(詳見 ReLU)。 13. Hard Tanh

技術分享圖片

Hard Tanh 是 Tanh 激活函數的線性分段近似。相較而言,它更易計算,這使得學習計算的速度更快,盡管首次派生值為零可能導致靜默神經元/過慢的學習速率(詳見 ReLU)。 14. LeCun Tanh

技術分享圖片

LeCun Tanh(也被稱作 Scaled Tanh)是 Tanh 激活函數的擴展版本。它具有以下幾個可以改善學習的屬性:f(± 1) = ±1;二階導數在 x=1 較大化;且有效增益接近 1。 15. ArcTan

技術分享圖片

視覺上類似於雙曲正切(Tanh)函數,ArcTan 激活函數更加平坦,這讓它比其他雙曲線更加清晰。在默認情況下,其輸出範圍在-π/2 和π/2 之間。其導數趨向於零的速度也更慢,這意味著學習的效率更高。但這也意味著,導數的計算比 Tanh 更加昂貴。 16. Softsign

技術分享圖片

Softsign 是 Tanh 激活函數的另一個替代選擇。就像 Tanh 一樣,Softsign 是反對稱、去中心、可微分,並返回-1 和 1 之間的值。其更平坦的曲線與更慢的下降導數表明它可以更高效地學習。另一方面,導數的計算比 Tanh 更麻煩。 17. SoftPlus

技術分享圖片

作為 ReLU 的一個不錯的替代選擇,SoftPlus 能夠返回任何大於 0 的值。與 ReLU 不同,SoftPlus 的導數是連續的、非零的,無處不在,從而防止出現靜默神經元。然而,SoftPlus 另一個不同於 ReLU 的地方在於其不對稱性,不以零為中心,這興許會妨礙學習。此外,由於導數常常小於 1,也可能出現梯度消失的問題。 18. Signum

技術分享圖片

激活函數 Signum(或者簡寫為 Sign)是二值階躍激活函數的擴展版本。它的值域為 [-1,1],原點值是 0。盡管缺少階躍函數的生物動機,Signum 依然是反對稱的,這對激活函數來說是一個有利的特征。 19. Bent Identity

技術分享圖片

激活函數 Bent Identity 是介於 Identity 與 ReLU 之間的一種折衷選擇。它允許非線性行為,盡管其非零導數有效提升了學習並克服了與 ReLU 相關的靜默神經元的問題。由於其導數可在 1 的任意一側返回值,因此它可能容易受到梯度爆炸和消失的影響。 20. Symmetrical Sigmoid

技術分享圖片

Symmetrical Sigmoid 是另一個 Tanh 激活函數的變種(實際上,它相當於輸入減半的 Tanh)。和 Tanh 一樣,它是反對稱的、零中心、可微分的,值域在 -1 到 1 之間。它更平坦的形狀和更慢的下降派生表明它可以更有效地進行學習。 21. Log Log

技術分享圖片

Log Log 激活函數(由上圖 f(x) 可知該函數為以 e 為底的嵌套指數函數)的值域為 [0,1],Complementary Log Log 激活函數有潛力替代經典的 Sigmoid 激活函數。該函數飽和地更快,且零點值要高於 0.5。 22. Gaussian

技術分享圖片

高斯激活函數(Gaussian)並不是徑向基函數網絡(RBFN)中常用的高斯核函數,高斯激活函數在多層感知機類的模型中並不是很流行。該函數處處可微且為偶函數,但一階導會很快收斂到零。 23. Absolute

技術分享圖片

顧名思義,值(Absolute)激活函數返回輸入的值。該函數的導數除了零點外處處有定義,且導數的量值處處為 1。這種激活函數一定不會出現梯度爆炸或消失的情況。 24. Sinusoid

技術分享圖片

如同余弦函數,Sinusoid(或簡單正弦函數)激活函數為神經網絡引入了周期性。該函數的值域為 [-1,1],且導數處處連續。此外,Sinusoid 激活函數為零點對稱的奇函數。 25. Cos

技術分享圖片

如同正弦函數,余弦激活函數(Cos/Cosine)為神經網絡引入了周期性。它的值域為 [-1,1],且導數處處連續。和 Sinusoid 函數不同,余弦函數為不以零點對稱的偶函數。 26. Sinc

技術分享圖片

Sinc 函數(全稱是 Cardinal Sine)在信號處理中尤為重要,因為它表征了矩形函數的傅立葉變換(Fourier transform)。作為一種激活函數,它的優勢在於處處可微和對稱的特性,不過它比較容易產生梯度消失的問題。

補充一個:maxout激活函數

技術分享圖片

技術分享圖片

技術分享圖片

參考:

https://www.cnblogs.com/lovychen/p/7561895.html

https://blog.csdn.net/qq_35200479/article/details/84502844

https://blog.csdn.net/not_guy/article/details/78749509

http://www.dataguru.cn/article-12255-1.html

https://www.cnblogs.com/makefile/p/activation-function.html

深度學習激活函數們