RNN中為什麼要採用tanh而不是ReLu作為啟用函式？

阿新 • • 發佈：2019-01-24

首先ReLU在RNN上是work的，而且work的很好。說一個可能很多人不知道的事實，ReLU根本最早就是發明來解決RNN的梯度消失問題的。論文包括

E. Salinas & L.F. Abbott, “A model of multiplicative neural responses in parietal cortex”, Proc. National Academy of Science U.S.A., vol. 93, pp. 11956–11961, 1996.
R.L.T. Hahnloser, “On the piecewise analysis of networks of linear threshold neurons”, Neural Networks

, vol. 11, pp. 691–697, 1998.

你問我是怎麼知道的？是因為這個事情寫到了必讀論文裡：

X. Glorot, A. Bordes, & Y. Bengio, “Deep sparse rectifier networks,” Proc. AISTATS’11, Ft. Lauderdale, FL, USA, 2011.

為什麼

@何之源答案裡提到的梯度爆炸問題其實不是什麼麻煩？因為現在大家都會做某種形式的Gradient clipping（也就是限定一下梯度絕對值的上限，超過就截斷）來避免梯度爆炸。覺得Gradient clipping很糙？其實一點都不糙，因為用SGD訓練深度模型數學上本身就已經糙的不能再糙了。覺得LSTM不需要這種東西？No。如果查查主流工具包，或者看看比較實際的LSTM應用論文，應該都至少這麼做了。比如Google在語音識別應用LSTM的這篇名作裡

H. Sak, A. Senior, & F. Beaufays, “Long short-term memory recurrent neural network architectures for large scale acoustic modeling”, Proc. Interspeech, Singapore, 2014.
LSTM需要clip的還不止梯度，甚至還包括memory cell value。

我自己在若干種語音識別問題，包括從大到1000小時語音（樣本數>360M）複雜資料，到小到3小時語音的TIMIT資料（約1M樣本）上，ReLU RNN和同樣維度的LSTM的效能差距很小（比如相對3%）；如果運氣夠好（主要是weight decay調的好），有時候甚至沒有差別。但是LSTM的問題是如果不做low rank approximation之類的引數控制，運算量會是對應RNN的四倍以上。所以Gating其實是一種代價很高的方法。

那很奇怪的是為什麼LSTM這麼流行？流行到大家都預設解決Gradient vanishing就一定得用LSTM？我覺得一方面可能是LSTM確實魯棒性特別好，基本上只要別調的太差（一般是weight decay），在幾乎所有應用裡都有非常好的結果，尤其是擬合訓練集的水平特別好。另一方面也許是因為LSTM把memory和邏輯電路的概念結合起來的idea很棒（絕對是人見人愛）。但換個角度講，如果把ReLU RNN的引數增加四倍到跟LSTM的引數一樣多，它應該是會穩定好過LSTM的……所以猜測當年這裡沒有嚴格比較同參數下的效能，而且可以猜測早期促成LSTM流行的人其實並不太關心計算量問題（也許是他們當時分析比較多，實驗規模比較小吧）。最後，LSTM其實很容易使用前面提到的low rank approximation把引數減少個2~4倍，效能沒什麼太明顯的損失，所以現在標準ReLU RNN對LSTM除了實現簡單外沒什麼優勢。

RNN中為什麼要採用tanh而不是ReLu作為啟用函式？

首先ReLU在RNN上是work的，而且work的很好。說一個可能很多人不知道的事實，ReLU根本最早就是發明來解決RNN的梯度消失問題的。論文包括E. Salinas & L.F. Abbott, “A model of multiplicative neural responses in pari

採用ReLU作為啟用函式的簡單深度神經網路matlab程式碼設計

本文介紹下如何實現神經元啟用函式為ReLU的深度神經網路。ReLU函式的數學公式很簡單ReLU(x)=max(x,0)。若DNN用於資料分類，則可以簡單的認為其主要由兩個部分組成：多隱層網路+分類器。分類器採用softmax。第一步：準備資料 1）將你需要分類的樣本資料以

為什麼我們要儘可能使用Iterator介面中的remove方法而不是用Collection介面中的remove方法

最近在看《資料結構與演算法分析》（Java語言描述）一書，看到第3.3.2 這一節時介紹Iterator介面。書中說道，“Iterator介面中包含一個方法，叫做remove()。該方法可以刪除next最新返回的項。雖然Collection介面也包含一個remo

為什麽要使用scrapy而不是requests+beautifulsoup？

網絡 soup quest nodejs cnblogs 總結 scrapy 效率 http 總結起來，有倆點最重要： 1）scrapy使用twisted異步網絡框架，類似nodejs，性能高； 2）scrapy內置的selector比beautifulsoup效率要高很

JDBC為什麽要使用PreparedStatement而不是Statement

方式組合 red localhost name only tle 註入性能首頁所有文章資訊 Web 架構基礎技術書籍教程 Java小組工具資源 - 導航條 - 首頁所有文章資訊 Web 架構基礎技術書籍教程 Java小

為什麼在web.xml配置url-pattern要使用 .jsp 而不能使用 /.jsp

Servlet和filter是javaEE開發中常用的技術，使用方便，配置簡單。在這裡詳細介紹servlet和filter中的url-pattern的用法。一、先精確匹配，再路徑匹配（路徑匹配的時候，先最長路徑匹配，再最短路徑匹配），至於副檔名匹配，就是單獨於精確匹配和匹配的一類了，以

在自由之路的荊棘中蟄伏，而不是死去

2016年是我選擇自由工作的第四個年頭。這四年裡，承受困難多於享受自由。局外人可能會問，既然如此，為何還要去堅持所謂的自由工作？這種曾被視為邊緣化的工作方式。我不專屬於任何一家公司，但我堅信可以自由地服務於他們任何一家先穿越回2011年，是我離開上海的那一年。

為什麼在web.xml配置url-pattern要使用 .jsp 而不能使用 /.jsp

Servlet和filter是javaEE開發中常用的技術，使用方便，配置簡單。在這裡詳細介紹servlet和filter中的url-pattern的用法。一、先精確匹配，再路徑匹配（路徑匹配的時候，先最長路徑匹配，再最短路徑匹配），至於副檔名匹配，就是單獨於精確匹配和匹配

1、為什麼程式設計中建議使用netty而不是用jdk nio?

如果對nio瞭解比較透徹的話，就不會糾結這個問題了，畢竟市面上流行的中介軟體，如mycat ，spark都是用的nio，當然使用netty的更多，如dubbo；我們需要知道nio的原理，同時也不必亂造輪子。使用jdk-nio你需要掌握linux-sele

[轉]Linux關閉Tomcat為什麼要用kill, 而不是shutdown.sh

解釋一：執行tomcat/bin/shutdown.sh,tomcat停止, 但它的java程序還在, 不過狀態為S(sleep), 不是執行時的R(Runnable), 如果不kill的話, 這種程序越來越多。解釋二：通過shutdown.sh指令碼關閉t

在ASP.Net Core 中使用列舉類而不是列舉

前言：我相信大家在編寫程式碼時經常會遇到各種狀態值，而且為了避免硬編碼和程式碼中出現魔法數，通常我們都會定義一個列舉，來表示各種狀態值，直到我看到Java中這樣使用列舉，我再想C# 中可不可以這樣寫，今天就分享一下我的感悟。一、通常我們是這樣使用列舉的（1）switch中使用列舉

在C#中要自己手動在派生類的建構函式中逐一的初始化基類的欄位嗎

public class Main { public static void main(String[] args) { Scanner sc = new Scanner(System.in); String[

為什麼對於類的const成員，只能使用初始化列表，而不能在建構函式內部進行賦值操作

結論：對於類的const成員，只能使用初始化列表，而不能在建構函式內部進行賦值操作。原因如下：1、建構函式不能被宣告為const函式，因此當我們建立一個類的const物件時，直到建構函式完成初始化的過程，物件才真正取得其“常量”的屬性，因此，建構函式在const物件的構造過程

關於在JSP頁面中為什麽一定要用${pageContext.request.contextPath}來獲取項目路徑，而不能用${request.contextPath}?

html 輸出獲取項目路徑 session PE ade ror ESS val 這裏的疑問在於pageContext和request都是JSP中的內置對象之一，為什麽不直接用${request.contextPath}來獲取項目路徑？出現

Qt 學習之路 2（19）：事件的接受與忽略（當重寫事件回撥函式時，時刻注意是否需要通過呼叫父類的同名函式來確保原有實現仍能進行！有好幾個例子。為什麼要這麼做？而不是自己去手動呼叫這兩個函式呢？因為我們無法確認父類中的這個處理函式有沒有額外的操作）

版本： 2012-09-29 2013-04-23 更新有關accept()和ignore()函式的相關內容。 2013-12-02 增加有關accept()和ignore()函式的示例。上一章我們介紹了有關事件的相關內容。我們曾經提到，事件可以依情況接受和忽略。現在，我們就

RNN中為什麼要採用tanh而不是ReLu作為啟用函式？

RNN中為什麼要採用tanh而不是ReLu作為啟用函式？

採用ReLU作為啟用函式的簡單深度神經網路matlab程式碼設計

為什麼我們要儘可能使用Iterator介面中的remove方法而不是用Collection介面中的remove方法

為什麽要使用scrapy而不是requests+beautifulsoup？

JDBC為什麽要使用PreparedStatement而不是Statement

為什麼在web.xml配置url-pattern要使用 .jsp 而不能使用 /.jsp

在自由之路的荊棘中蟄伏，而不是死去

為什麼在web.xml配置url-pattern要使用 .jsp 而不能使用 /.jsp

1、為什麼程式設計中建議使用netty而不是用jdk nio?

[轉]Linux關閉Tomcat為什麼要用kill, 而不是shutdown.sh

在ASP.Net Core 中使用列舉類而不是列舉

在C#中要自己手動在派生類的建構函式中逐一的初始化基類的欄位嗎

為什麼對於類的const成員，只能使用初始化列表，而不能在建構函式內部進行賦值操作

關於在JSP頁面中為什麽一定要用${pageContext.request.contextPath}來獲取項目路徑，而不能用${request.contextPath}?

access Vba中，對日期時間欄位賦空值時，要用Null ，而不是""。

騰訊：人力資源要的是服務，而不是管理

IE9的console不兼容問題（在控制臺打開代碼中要顯示的結果，數據到了conso這裏無法繼續執行）

我們為什麽在移動端項目中選擇jQuery而不是Zepto

url_for()中的坑,url_for操作對象是函數，而不是route裏的路徑

RNN中為什麼要採用tanh而不是ReLu作為啟用函式？

相關推薦