DNN前向、反向傳播及正則化

阿新 • • 發佈：2018-11-19

1.損失函式和啟用函式的選擇

1.1 均方差損失函式+sigmoid啟用函式

$s i g m o i d ($

z ) = 1 1 + e −

z sigmoid(z)=\frac{1}{1+e^{-z}}

s i g m o i d (z) = \frac{1}{1 + e ^{- z}}

sigmoid^{&#x27;}(z)=sigmoid(z)(1-sigmoid(z))

假設輸出是連續可導的值
演算法收斂速度慢

1.2 交叉熵損失函式+sigmoid啟用函式

假設輸出是連續可導的值
交叉熵損失函式代替均方差損失函式，改進DNN演算法收斂速度

1.3 對數似然損失函式+softmax啟用函式

處理多分類問題

1.4 梯度爆炸梯度消失+ReLU啟用函式

在反向傳播的過程中，由於我們使用矩陣求導的鏈式法則，有一連串連乘。

如果連乘的數字都是小於1，則梯度越來越小，直到消失
解決：調整初始化引數
如果連乘的數字都是大於1，則梯度越來越大，導致爆炸
解決：使用ReLU啟用函式 $ReLU(x)=max(0,x)$

2.DNN前向傳播

DNN的前向傳播演算法就是利用若干個權重係數矩陣W,偏倚向量b和輸入向量x進行一系列線性運算和啟用運算，從輸入層開始，一層層向後計算，直到輸出層，得到輸出結果。
在這裡插入圖片描述

3.DNN反向傳播

DNN的反向傳播演算法就是對DNN的損失函式用梯度下降法進行迭代優化求極小值的過程。

4.DNN的正則化

4.1. L1,L2正則化

範數規則化的兩個作用：

保證模型儘可能的簡單，避免過擬合。
引數值大小和模型複雜度是成正比的。引數過多會導致模型複雜度上升，越複雜的模型，越是會嘗試對所有的樣本進行擬合，甚至包括一些異常樣本點。
約束模型特性，加入一些先驗知識，例如稀疏、低秩等。

L0範數

L0是指向量中非0的元素的個數。

如果我們用L0範數來規則化一個引數矩陣W的話，就是希望W的大部分元素都是0。即讓引數W是稀疏的。稀疏的好處：

簡化模型，避免過擬合；
引數變少可以提高可解釋性

但是，L0範數的最優化問題是一個NP hard問題，理論證明，L1範數是L0範數的最優凸近似，因此通常使用L1範數來代替。

L1範數

L1範數是指向量中各個元素絕對值之和。

L1正則化之所以可以防止過擬合，是因為它能產生等於0的權值，即產生稀疏的效果。引數值大小和模型複雜度是成正比的。因此複雜的模型，其L1範數就大，最終導致損失函式就大，說明這個模型就不夠好。

L2範數

L2範數即歐式距離。

L2正則化之所以可以防止過擬合，是因為它是讓各個引數接近於0。越小的引數說明模型越簡單，越簡單的模型越不容易產生過擬合現象。

L1稀疏、L2平滑

假定 $w_i>0$ ，L1的權值每次更新都固定減少一個特定的值，那麼經過若干次迭代之後，權值就有可能減少到0。 $w_i=w_i-\eta$ 。( $w_i<0時則是增加到0$ )。
L2的權值更新公式為 $wi= wi- η * w_i$ ，假設 $\eta=0.5$ ，也就是說權值每次都等於上一次的1/2，那麼，雖然權值不斷變小，但是因為每次都等於上一次的一半，所以很快會收斂到較小的值但不為0。

因此

L1能產生等於0的權值，即產生稀疏的效果。
L2能迅速得到比較小的權值，但是難以收斂到0，即產生平滑的效果。

4.2. 整合學習

類似隨機森林，用若干個DNN網路

4.3. dropout正則化

在訓練模型時，隨機去掉一部分隱藏層的神經元

4.4. 資料增強

增加訓練資料
交叉驗證法

用於評估模型的預測效能，尤其是訓練好的模型在新資料上的表現，可以在一定程度上減小過擬合。
從有限的資料中獲取儘可能多的有效資訊。

DNN前向、反向傳播及正則化

1.損失函式和啟用函式的選擇 1.1 均方差損失函式+sigmoid啟用函式 s i

CNN前向、反向傳播及常用結構

CNN偉大之處在於通過感受野和權值共享減少了神經網路需要訓練的引數的個數。影象的空間聯絡是區域性的，就像人是通過一個區域性的感受野去感受外界影象一樣，每一個神經元都不需要對全域性影象做感受，每個神經元只感受區域性的影象區域，然後在更高層，將這些感受不同區域性的神經元綜合起來就可以得到全

損失函式、風險函式及正則化知識系統總結

0 引言做機器學習專案的時候總是遇到經驗風險、結構風險、正則化項等這些概念，還有損失函式最小化問題，今天我們就來詳細地總結下這些知識吧。 1 損失函式針對單個具體樣本，表示模型預測值與真實樣本值之間的差距。損失函式越小，說明模型對於該樣本預測越準確。在實際

《神經網路的梯度推導與程式碼驗證》之FNN（DNN）前向和反向傳播過程的程式碼驗證

在《神經網路的梯度推導與程式碼驗證》之FNN（DNN）的前向傳播和反向梯度推導中，我們學習了FNN（DNN）的前向傳播和反向梯度求導，但知識仍停留在紙面。本篇章將基於深度學習框架tensorflow驗證我們所得結論的準確性，以便將抽象的數學符號和實際資料結合起來，將知識固化。更多相關內容請見《神經網路的梯度推

Caffe tutorial 之前向與反向傳播

前向與反向傳播前向與後向傳播是網路中重要的計算部分。接下來以簡單的邏輯迴歸分類器為例介紹。前向傳播用於計算推理過程中給定輸入的輸出。在前向傳播中，Caffe將每層的計算進行組合從而得到模型所代表的“函式”。此過程由底向上進行。資料

《神經網路的梯度推導與程式碼驗證》之CNN前向和反向傳播過程的程式碼驗證

在《神經網路的梯度推導與程式碼驗證》之CNN的前向傳播和反向梯度推導中，我們學習了CNN的前向傳播和反向梯度求導，但知識仍停留在紙面。本篇章將基於深度學習框架tensorflow驗證我們所得結論的準確性，以便將抽象的數學符號和實際資料結合起來，將知識固化。更多相關內容請見《神經網路的梯

《神經網路的梯度推導與程式碼驗證》之vanilla RNN前向和反向傳播的程式碼驗證

在《神經網路的梯度推導與程式碼驗證》之vanilla RNN的前向傳播和反向梯度推導中，我們學習了vanilla RNN的前向傳播和反向梯度求導，但知識仍停留在紙面。本篇章將基於深度學習框架tensorflow驗證我們所得結論的準確性，以便將抽象的數學符號和實際資料結合起來，將知識固化。更多相關內容請見《神經

《神經網路的梯度推導與程式碼驗證》之LSTM前向和反向傳播的程式碼驗證

在《神經網路的梯度推導與程式碼驗證》之LSTM的前向傳播和反向梯度推導中，我們學習了LSTM的前向傳播和反向梯度求導，但知識仍停留在紙面。本篇章將基於深度學習框架tensorflow驗證我們所得結論的準確性，以便將抽象的數學符號和實際資料結合起來，將知識固化。更多相關內容請見《神經網路

grep、egrep命令及正則表達式

grep系正則表達式grep系： grep：Global search Regular Expression and Print out the line。利用正則表達式進行全局搜索並將匹配到的行顯示出來；格式： grep [OPTIONS] PATTERN [FILE...] gre

線性回歸及正則化公式推導

tail 損失函數 csdn .net net nbsp art 公式推導模型基礎公式： ?BA/?A = BT ?ATB/?A = B ?ATBA/?A = 2BA 模型函數： hθ(x) = xθ 無正則化損失函數： J(θ) = 1/2(Xθ-Y)2

史上最簡單易懂、全面詳細的“正則化”教程

進入正文全文摘要在機器學習和深度學習中，最艱難的問題就是如何面對模型的過擬合問題，處理過擬合的方式手段多樣，我們常常聽見的方法是“正則化”，但是，很多的資料對於正則化的介紹要麼是單調片面、要麼是晦澀難懂，本文汲取眾家之長，由淺入深，徹底搞明白正則化的原理

機器學習：偏差、方差與正則化

1. 偏差和方差 1.1 偏差通俗的講，偏差反映的模型學習的好壞程度或者捕捉訓練集主要特徵的能力大小。偏差大意味著學習不夠充分，主要特徵沒有捕捉到；偏差小意味著學習充分，捕捉到了訓練集中的主要特徵，當然這也存在過擬合的風險。 &

機器學習筆記（四）Logistic迴歸實現及正則化

一、Logistic迴歸實現（一）特徵值較少的情況 1. 實驗資料吳恩達《機器學習》第二課時作業提供資料1。判斷一個學生能否被一個大學錄取，給出的資料集為學生兩門課的成績和是否被錄取，通過這些資料來預測一個學生能否被錄取。 2. 分類結果評估橫縱軸（特徵）為學生兩門課成績，可以在圖

機器學習筆記（五）過擬合問題及正則化

一、過擬合問題 1. 引入線性迴歸當中：假設我們拿出房屋面積與房價的資料集，隨著面積的增大，房價曲線趨於平緩。第一個模型不能很好地擬合，具有高偏差（欠擬合）。我們加入二次項後曲線可以較好的擬合，用第三個模型去擬合時，它通過了所有的資料點，但它是一條扭曲的線條，不停上下波動，我們並

支援向量機（SVM）（三）----核函式及正則化

上一節最後我們說到我們根據求得的，可求得，，然後求出決策函式，但是我們知道：是的函式，我們也許不必把帶入上式來求解，我們直接把上式帶入決策函式可有：假如我們已經求得最優的，在

深度學習之激活函數、優化方法和正則化

形式 unit 優勢神經元必須 vat 數值 line 利用激活函數（activate function）在神經元中非常重要，為了增強網絡的表示能力和學習能力，激活函數需要具備以下幾點性質：（1）連續並可導的非線性函數，以便於利用數值優化的方法來學習網絡參數。

改善深層神經網絡：超參數調試、正則化及優化

正則 ria 左右訓練訓練集第一周 1.3 實驗必須第一周深度學習的實用層面 1.1 訓練、驗證、測試集應用機器學習是個高度叠代的過程：想法--->編碼--->實驗（1）神經網絡的層數（2）隱含層神經元個數（3）學習率（4）激勵函數

shell編程初步、grep及正則表達式

Linux shell 正則表達式 bash的基礎特性（3）1、提供了編程環境程序=指令+數據程序編程風格過程式：以指令為中心，數據服務於指令對象式：以數據為中心，指令服務於數據 shell程序：提供了編程能力，解釋執行程序的執行方式：計算機：運行二進制指令編程語言：低級：匯編高級：編譯：高

標準I/O與管道；用戶、組和權限；文件處理工具及正則表達式總結

程序模式 group tails 匹配 -c 壓縮表達 for 四、標準I/O與管道標準輸入和輸出程序：指令+數據讀入數據：Input輸出數據：Output?打開的文件都有一個fd: file descriptor (文件描述符)?Linux給程序提供三種I/O設備?標

神經網路中的過擬合的原因及解決方法、泛化能力、L2正則化

過擬合：訓練好的神經網路對訓練資料以及驗證資料擬合的很好，accuracy很高，loss很低，但是在測試資料上效果很差，即出現了過擬合現象。過擬合產生的原因：（1）資料集有噪聲（2）訓練資料不足（3）訓練模型過度導致模型非常複雜解決方法：（1）降低模型

DNN前向、反向傳播及正則化

1.損失函式和啟用函式的選擇

1.1 均方差損失函式+sigmoid啟用函式

1.2 交叉熵損失函式+sigmoid啟用函式

1.3 對數似然損失函式+softmax啟用函式

1.4 梯度爆炸梯度消失+ReLU啟用函式

2.DNN前向傳播

3.DNN反向傳播

4.DNN的正則化

4.1. L1,L2正則化

範數規則化的兩個作用：

L0範數

L1範數

L2範數

L1稀疏、L2平滑

4.2. 整合學習

4.3. dropout正則化

4.4. 資料增強

相關推薦