【面試QA-基本模型】RNN 與 CNN

為什麼傳統 CNN 適用於 CV 任務，RNN 適用於 NLP 任務

從模型特點上來說：

對於 CNN 每一個卷積核都可以看作是一個濾波器，卷積運算的本質是互相關運算，每個卷積核僅對於具有特定特徵具有較大的啟用值，而且 CNN 有引數共享和區域性連線的特點，能夠提取影象上不同位置的同一個特徵，即 CNN 具有平移不變性
RNN 的特點在於其是一個時序模型，在對每個神經元不僅可以接收當前時刻的輸入資訊，還將接收上一個時刻的該神經元的輸出資訊，具有短期記憶能力。這在用於 NLP 任務時相當於隱含著建立了一個語言模型，這對詞序具有很強的區分能力。而 CNN 和 DNN 均類似詞袋模型，丟失的詞序特徵。

從資料特徵上來說

影象矩陣中的每個元素為影象中的畫素值，每個畫素與其周圍元素都是高度相關的
文字矩陣中的資料為詞的 embedding 向量，每個元素在詞向量內與詞向量間的相鄰元素的關聯性是不同的，因此 CNN 用於 NLP 任務常使用的是一維卷積

CNN 與 FCN 相比有什麼優點？

CNN 相比於 FCN 具有更少的引數，主要有下面兩個原因：
- 引數共享：一個卷積核能對樣本影象上的所有區域採用相同的引數進行特徵檢測。
- 稀疏連線：在每一層中，由於濾波器的尺寸限制，輸入和輸出之間的連線是稀疏的，每個輸出值只取決於輸入在區域性的一小部分值。
池化層降維：池化過程則在卷積後很好地聚合了特徵，通過降維來減少運算量。

由於 CNN 引數數量較小，所需的訓練樣本就相對較少，因此在一定程度上不容易發生過擬合現象。
平移不變性：CNN 比較擅長捕捉區域位置偏移。即進行物體檢測時，不太受物體在圖片中位置的影響，增加檢測的準確性和系統的健壯性。

CNN的相關計算

輸出維度計算
- 輸出維度 = (輸入維度 - 卷積核大小 + 2*Padding長度)/步長 + 1
感受野的計算
- 第k-1層的感受野 = (第k層的感受野 - 1) * 步長 + 卷積核大小
卷積核的引數量
- 引數量=（filter size * 輸入通道數）* 當前層 filter 數量
卷積核的計算量
- 計算量 = 輸出的維度^2 * 輸出的通道數 * 卷積核個數 * 卷積核大小^2

RNN 原理

\(\hat y\) 部分的啟用函式可以根據下游任務設定

LSTM 原理

三個門：[output_dim + input_dim, 1]
更新門位置的全連線層：[output_dim + input_dim, output_dim]

GRU 原理

兩個門：[output_dim + input_dim, 1]
全連線層：[output_dim + input_dim, output_dim]

RNN BPTT

假設\(t\)時刻的損失函式為\(L_t\)，以 \(W_{aa}\)，\(W_{ax}\)，\(W_{ya}\) 為例
\[ \begin{aligned} &\frac{\delta L_t}{\delta W_{ya}} = \frac{\delta L_3}{\delta \hat{y}_t}\frac{\delta \hat{y}_t}{\delta W_{ya}} \\ &\frac{\delta L_t}{\delta W_{aa}} = \frac{\delta L_t}{\delta \hat{y}_t}\frac{\delta \hat{y}_t}{\delta a_{t}}(\frac{\delta a_{t}}{\delta W_{aa}} + \frac{\delta a_{t}}{\delta a_{t-1}}\frac{\delta a_{t-1}}{\delta W_{aa}} + ...)\\ &\frac{\delta L_t}{\delta W_{ax}} = \frac{\delta L_3}{\delta \hat{y}_t}\frac{\delta \hat{y}_t}{\delta a_{t}}(\frac{\delta a_{t}}{\delta W_{ax}} + \frac{\delta a_{t}}{\delta a_{t-1}}\frac{\delta a_{t-1}}{\delta W_{ax}} + ...) \end{aligned}\]
對於任意時刻t對 \(W_x\)，\(W_s\) 求偏導的公式為：
\[\begin{aligned} &\frac{\delta L_t}{\delta W_{aa}} = \sum_{k=0}^{t}\frac{\delta L_t}{\delta y_t}\frac{\delta y_t}{\delta a_t}( \prod_{j=k+1}^t\frac{\delta a_j}{\delta a_{j-1}} ) \frac{\delta a_k}{\delta W_{aa}}\\ &\frac{\delta L_t}{\delta W_{aa}} = \sum_{k=0}^{t}\frac{\delta L_t}{\delta y_t}\frac{\delta y_t}{\delta a_t}( \prod_{j=k+1}^t\frac{\delta a_j}{\delta a_{j-1}} ) \frac{\delta a_k}{\delta W_{aa}} \end{aligned}\]
其中\(\frac{\delta a_j}{\delta a_{j-1}}\)和\(\frac{\delta a_k}{\delta W_{aa}}\)還存在\(tanh'\)的導數項，而\(tanh'\)的值域為\((0, 1)\)。隨著時間步的增長，累乘項會趨於 0，出現梯度消失的問題

LSTM 如何解決 RNN 的梯度消失問題

RNN 的啟用函式為 \(tanh\)，而 \(tanh\) 的導數取值範圍為 \([0, 1]\)，在時間上的反向傳播會存在時間上的梯度累乘項，時間步長了會導致梯度累乘而消失
LSTM 通過引入全域性資訊流，在時間維度上引入殘差結構，殘差結構的引入就使得鏈式求導過程中引入了一個求和項，從反向傳播的求導來看，最多隻有兩個啟用函式的導數累乘，因此遠距離的梯度通常都可以正常傳播，減弱了梯度消失問題

怎樣增加 LSTM 的長距離特徵提取能力

Dilated RNN：Dilated CNN 為空洞卷積，Dilated RNN 則是在時間維度上空洞，淺層部分的為傳統 RNN，每個時間步都迴圈，深層的迴圈週期更長，增大時間維度上的“感受野”

個人為面試做的知識儲備，如有出錯，請大家指正，謝謝！

相關推薦

【面試QA-基本模型】RNN 與 CNN

目錄為什麼傳統 CNN 適用於 CV 任務，RNN 適用於 NLP 任務從模型特點上來說：對於 CNN 每一個卷積核都可以看作是一個濾波器，卷積運算的本質是互相關運算，每個卷積核僅對於具有特定特徵具有較大的啟用值，而且 CNN 有引數共享和區域性連線的

【機器學習基本概念】泊松分佈與泊松過程

答案肯定是大於1/lambda的。假設你到達的時刻為t*，前一到達時刻為U，後一將要到達時刻為L，那麼U至t*可以看做一段泊松過程，t*到L也可以看做一段泊松過程，所以你記錄的平均到達間隔時間應該是兩個泊松過程相加後的平均等待時間。多個泊松過程相加得到的是愛爾蘭（Erlang）過程，期望為k/l

hadoop【HDFS的基本命令】

hadoop基礎1.先進入到Hadoop用戶下，然後：cd /usr/local/hadoop-0.20.2-cdh3u5/ ls一下這時候會看見一個bin目錄，bin目錄下的，都是我們的命令。像JDK裏面，bin目錄裏面不也是我們的命令嘛，像Java、javac。所以同樣的，我們的Hadoop命令也在b

【JavaScript的基本語法】

span ack 輸出 ole 語法錯誤必須 class 寫入內容【JavaScript的基本語法】 1.javascript輸出 JavaScript語句向瀏覽器發出的命令。語句的作用是告訴瀏覽器該做什麽。 <script> do

【並發編程】CAS與synchronized

ews 算法正式 ima PE 理解 cnblogs inf sch 線程安全眾所周知，Java是多線程的。但是，Java對多線程的支持其實是一把雙刃劍。一旦涉及到多個線程操作共享資源的情況時，處理不好就可能產生線程安全問題。線程安全性可能是非常復雜的，在沒有充足的同步

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

總結 ora 二次判斷天都特性以及解釋意思【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計（Maximum lik

【蒟蒻周報】思維與結論的碰撞 9.17-9.23

fields 互不侵犯king tips sco 基本 logs lin 計算 html 周出題解「NOIP2018模擬9.17」線段樹 - 思路題「BZOJ2190」[SDOI2008] 儀仗隊 - 歐拉函數「NOIP2018模擬9.18」最近公共祖先 - 結論題

【面試算法題】Java Stack 類的使用

obj har turn cte charat arch 默認子類 size Java Stack 類棧是Vector的一個子類，它實現了一個標準的後進先出的棧。堆棧只定義了默認構造函數，用來創建一個空棧。常用方法1 boolean empty() 測試堆棧是否為空

【面試+工作劃重點】工作實戰python知識點，面試也會經常遇到

分享工作中遇到的python知識點，估計很多人沒太留意過這個知識點，但是對鞏固很多基本語法和一些python中一些有用的方法很有幫助，工作中的問題我簡化說下，大概就是下面需求：有3個python列表：分別是年齡，姓名，城市 a = [ 24 , 37,18, 45, 60] b

【死磕springboot2.0】@restcontroller與 @controller的區別；

@restcontroller *原始碼如下：其包含@Controller 、@ResponseBody * @Target({ElementType.TYPE}) @Retention(RetentionPolicy.RUNTIME) @Documented @Controller

軟體工程之系統建模篇【設計實體型別模型】

　本文主要介紹實體類模型的設計過程，首先識別類及類之間的關係，然後畫出類圖和包圖，最後識別類的屬性和操作。類是面向物件方法的一個全新概念，類模型是面向物件分析的核心，實體類位於系統結構的商業規則服務層。實體類是系統需要持久儲存的物件最終要對映到資料庫。實體類模型用類圖和包圖描述。 1、類的識別　&nbs

java基礎-初級（一）【java的基本語法】

目錄 1、java的基本語法 1、java的基本語法關鍵字、註釋、運算子、變數、常量、進位制和進位制轉換、語句、資料型別和資料轉換、識別符號。關鍵字：關鍵字是電腦語言中事先預定好的有意義的識別符號，又叫保留關鍵字

【無人機學習筆記 4】GPS與RTK技術

什麼是RTK技術　　常規的GPS測量方法，如靜態、快速靜態、動態測量都需要事後進行解算才能獲得釐米級的精度，而RTK是能夠在野外實時得到釐米級定位精度的測量方法，它採用了載波相位動態實時差分（Real - time kinematic）方法，是GPS應用的重大里程碑，它的出現為工程放樣、

【Python3 爬蟲學習筆記】變數與資料型別 2

資料型別的轉換變數的資料型別非常重要，通常情況下只有相同型別的變數才能進行運算。Python提供了簡單的資料型別自動轉換功能：如果是整數與符號運算，系統會先將整數轉換為浮點數再運算，運算結果為浮點型，例如： num1 = 5 + 7.8 # 結果為12.8，浮

【面試官問你】說說Android中的Service吧

Service是android中的四大元件之一，它是用於在後臺進行服務的，當應用程式在後臺掛起時，為了保證一些元件還能繼續工作而引入的，它既不是執行緒也不是程序，而是依靠應用主執行緒而存在的。 Service的啟動方法： 1.通過startService啟動後，這個ser

shell命令進階【Linux-shell基本操作】

shell 1.萬用字元：萬用字元： *：表示任意長度的字串，如：ls ~/* #列舉家目錄下所有檔案或子目錄 ?:表示任意一個字元，如： ls

軟體工程之系統建模篇【設計系統類模型】

　類模型是面向物件分析的核心，系統類模型用包圖描述，前面的文章我們分析了實體類、介面類、介面控制類和用例控制類，本章我們將介紹系統類模型的設計，首先簡要介紹類模型的設計方法，然後設計子系統的類模型，最後設計系統類模型。　　1、設計方法設計系統類模型，要明確子系統或系統的組成，及各個組成部分之間的關係，子系

【IT人士健康系列】長期與電腦打交道，如何預防肩周炎？

在釋出【IT人士健康系列】第一篇文章介紹IT人士如何預防滑鼠手後，在微信公眾號（運維派微信公眾號：yunweipai）中收到不了不少朋友的點贊，所以今天繼續該系列文章，希望大家除了有紮實的專業技能，也要有個健康的身體：）對於從事IT領域的朋友們，每天面對電腦的時間遠遠超出一般上班族、白領人士，因此

【面試之持久化框架】hibernate、mybatis、jpa規範

1.hibernate 和 mybatis 的區別 ·實現上的區別：mybatis只有一個核心jar包，另外和spring整合需要mybatis-spring的jar包，使用快取需要mybatis-ehcache的jar包，而hibernate需要一系列的jar包，

【面試筆試-c/c++】人民搜尋2012校園招聘試題

2012 人民搜尋筆試題：題目如下（題目都很基礎，但是要拿滿分，或者做到完美，應該還是有一定難度的）： 1、列印漢諾塔移動步驟，並且計算複雜度。 2、計算兩個字串的是否相似（字元的種類，和出現次數相同） 3、定義二叉樹，節點值為int，計算二叉樹中的值在[a,b]區