二分類神經網路公式推導過程

阿新 • • 發佈：2018-12-25

簡介：本文主要介紹了簡單二分神經網路的公式推導過程。

歡迎探討，如有錯誤敬請指正

1. 資料表示說明

定義一個名為n的列表

n[i]表示第i層的節點數 i從0開始

L = len(n)-1表示神經網路的層數，網路的層數從第0層開始

W[i]的維度為（n[i], n[i-1]） i從1開始

b[i]的維度為（n[i], 1） i從1開始

2. 正向傳播

X表示訓練樣本矩陣，每個訓練樣本有d個特徵，有m個訓練樣本，所以X的維度是（d, m）即n[0] = d

表示第i層的啟用函式

維度（n[i], m）一個樣本對應一列

3. 交叉熵損失函式的推導過程

“*”表示對應元素相乘，表示第i個樣本的真實值，表示第i個樣本的預測值，也就是神經網路最後一層的輸出。

對於二分類的神經網路來說，最後一層的啟用函式一般都是sigmoid函式

sigmoid函式由下列公式定義

從圖中可知，最後一層的輸出為0~1之間,可以看做概率。我們可以把二分神經網路看成一個概率模型，輸入為一些特徵，輸出為概率，而且滿足二項分佈

表示真實值為1時，神經網路預測準確的概率

表示真實值為0時，神經網路預測準確的概率，我們可以將上面的分段函式寫成一個表示式

所以上式表示了神經網路預測準確的概率。

當前有m個樣本，那麼like表示了這m個樣本同時預測準確的概率

我們的目的就是讓like取最大值，由於對數函式ln(x)是一個單調函式，所以當like函式取最大值時，ln(like)一定取得最大值

ln(like)取得最大值等價於下面的值取得最小。

而這個就是損失函式，初始化時w和b隨機，我們通過隨機梯度下降法，得到w和b使得損失函式最小。

另一方面，我們還可以通過資訊理論的角度推導交叉熵

4. 反向傳播（隨機梯度下降法）

L表示最後一層,從最後一層開始，由損失函式逐步向後求導

一般情況下

sigmoid的導數可以用自身表示:

所以

一定是維度（1, m）一個樣本對應一列（也就是一個數值），

假設已經知道了，它的維度是（n[i], m），則可以推出三點：

1），它的維度是(n[i], m) 乘以(n[i-1], m)T

2），它的維度是(n[i], 1)

3）

它的維度是(n[i+1], n[i]).T乘以（n[i+1], m）

同理還可以繼續推出

*表示對應元素相乘，而就是啟用函式的求導,這樣就可以繼續向下求導了

5. 引數更新

k表示學習速度

維度（n[i], m）一個樣本對應一列

維度（n[i], 1）一個樣本對應一行

維度（n[i], n[i-1]）

維度（n[i], m）

6. 通過具體的例子解釋反向傳播的公式

對於上圖神經網路的而言的一個訓練樣本而言,在求導的過程中我們應該把看成一個有關的超多元函式

的維度（1,1）

就是一個數

我們從最後一層開始反向傳播

維度（1,1）

注意最後推匯出來的結果是兩個矩陣的乘法

維度（1,3）

維度（1,1）

繼續向前一層進行反向傳播

所以維度（3,1），還因為，所以

維度（3,1）

因為

展開可得

現在將成本函式看成由這12個自變數的函式(為啥是12個，因為每一個都是一個1行4列的向量)

成本函式對著12個引數求導就形成了一個矩陣

這矩陣正好可以表示成

維度（3,1）乘維度(4,1)^T形成一個(3,4)的矩陣

現在將成本函式看成由這4個自變數的函式(為啥是4個，因為是一個4行1列的向量)

成本函式對著4個引數求導就形成了一個四行一列的向量

這個矩陣恰好可以表示成

通用形式：

同理有了就可以推出進而可以推出和

對於m個樣本而言，我們求得的某個引數的導數是m樣本分別對這個引數求導的平均值。至此反向傳播過程推導推導完畢。

7. 參考內容

二分類神經網路公式推導過程

簡介：本文主要介紹了簡單二分神經網路的公式推導過程。歡迎探討，如有錯誤敬請指正 1. 資料表示說明定義一個名為n的列表 n[i]表示第i層的節點數 i從0開始 L = len(n)-1表示神經網路的層數，網路的層數從第0層開始 W[i]的維度為（n[i], n[i-1]） i從1開始 b[i]的維度

利用TensorFlow訓練簡單的二分類神經網路模型

利用TensorFlow實現《神經網路與機器學習》一書中4.7模式分類練習具體問題是將如下圖所示雙月牙資料集分類。使用到的工具: python3.5 tensorflow1.2.1 n

在tensorflow下構建二層神經網路和三層神經網路解決10分類任務對比

繼剛才的邏輯迴歸解決的十分類任務意猶未盡，分別設計了二層和三層的神經網路對比解決這個10分類問題下面畫一個草圖代表三層神經網路的計算圖：import numpy as np import tensorflow as tf import matplotlib.pyplot as

解釋一下核主成分分析(Kernel Principal Component Analysis, KPCA)的公式推導過程（轉載）

線性不可分 itl 專註 out center forest 測試重要原因 KPCA，中文名稱”核主成分分析“，是對PCA算法的非線性擴展，言外之意，PCA是線性的，其對於非線性數據往往顯得無能為力，例如，不同人之間的人臉圖像，肯定存在非線性關系，自己做的基於ORL數據

對GAN網路公式推導的一些理解

詳見https://blog.csdn.net/mr_tyting/article/details/79336802 這段公式表示，首先固定生成器，也就是G的網路引數，然後判別器D要使V的值儘可能大，也就是真實樣本和造假樣本的區別要儘可能大（故意找茬）。然後關於這個V函式的構造其實也挺好理解的，

二.線性神經網路

　　自適應線性元件20世紀50年代末由Widrow和Hoff提出，主要用於線性逼近一個函式式而進行模式聯想以及訊號濾波、預測、模型識別和控制等。　　線性神經網路和感知器的區別是，感知器只能輸出兩種可能的值，而線性神經網路的輸出可以取任意值。線性神經網路採用Widrow-Hoff學習規則，即LMS（Leas

【深度學習】神經網路的學習過程

神經網路的學習 \quad\quad 線上性可分的與非門、或門的感知機模型中，我們可以根據真值表人工設定引數來實現，

六天搞懂“深度學習”之二：神經網路

注意對比左右兩個框圖，用神經網路代替模型，用學習規則代替機器學習。因此，神經網路是實現機器學習的一種重要模型，確定模型（神經網路）的過程稱為學習規則。大腦與神經網路的類比：大腦的神經元對應神經網路的節點，大腦的神經元連線對應神經網路的連線權值。三輸入的神經

吳恩達《神經網路與深度學習》課程筆記歸納（二）-- 神經網路基礎之邏輯迴歸

上節課我們主要對深度學習（Deep Learning）的概念做了簡要的概述。我們先從房價預測的例子出發，建立了標準的神經網路（Neural Network）模型結構。然後從監督式學習入手，介紹了Standard NN，CNN和RNN三種不同的神經網路模型。接著介紹了兩種不

對分類神經網路的理解

傳統的分類演算法，是認為設計特徵提取方式，然後使用支援向量機進行分類。那麼如果按照這個思路，在全連線之前，算不算訓練一個核函式使資料對映到一個線性可分的空間內，然後再運用全連線，分類向量，如果這樣想的話，核函式是低維空間向高維空間的一種對映，那麼原始資料的維度低在哪，對映後的空間的維數高在那？

從零開始學深度學習二：神經網路

本課程筆記來源於深享網課程《深度學習理論與實戰TensorFlow》 2.1學習的種類學習的種類主要分成以下三類：監督學習、非監督學習和強化學習三種。接下來，將分別對這三種學習進行介紹。監督學習：對已經標記的訓練樣本進行學習，然後對樣本外的資料進行標記

cs231n斯坦福基於卷積神經網路的CV學習筆記（二）神經網路訓練細節

五，神經網路注意點part1 例項：邏輯迴歸二層神經網路訓練函式使用權重w和偏差值biase計算出第一個隱含層h，然後計算損失，評分，進行反向傳播回去多種常用啟用函式（一般預設max（0，x）），如sigmoid函式具有飽和區梯度0，非零點中心，計算x複

AI應用開發基礎傻瓜書系列4-用線性迴歸來理解神經網路的訓練過程

下面我們舉一個簡單的線性迴歸的例子來說明實際的反向傳播和梯度下降的過程。完全看懂此文後，會對理解後續的文章有很大的幫助。為什麼要用線性迴歸舉例呢？因為\(y = wx+b\) （其中，y,w,x,b都是標量）這個函式的形式和神經網路中的\(Y = WX + B\)（其中，Y,W,X,B等都是矩陣）非常近似，

全概率公式、貝葉斯公式推導過程(在原博文的基礎上有補充)

（1）條件概率公式設A,B是兩個事件，且P(B)>0,則在事件B發生的條件下，事件A發生的條件概率（conditional probability)為： P(A|B)=P(AB)/P(B) （2）乘法公式 1.由條件概率公式得： P(A

FPGA實現二值神經網路

寫在前面：之前的科研工在是使用RETL實卷機神經網路，其中資料是量化後的8Bit。也就是說還要使用乘法器，但是FPGA的DSP資源很有限。所以有了現在的工作，在FPGA上實現二值神經網路。主要從二值神經網路的原理，訓練，FPGA實現三個步驟講。個人比較懶，基本上還是轉別人寫好的部落格。自己具體

【論文閱讀筆記】---二值神經網路（BNN）

二值網路是將權值W和隱藏層啟用值二值化為1或者-1。通過二值化操作，使模型的引數佔用更小的儲存空間（記憶體消耗理論上減少為原來的1/32倍，從float32到1bit）；同時利用位操作來代替網路中的乘加運算，大大降低了運算時間。由於二值網路只是將網路的引數和啟用值二值化，並沒有改變網路的結構。因此我們主要關注

單應性(homography)變換的公式推導過程

原文地址：http://www.cnblogs.com/ml-cv/p/5871052.html 矩陣的一個重要作用是將空間中的點變換到另一個空間中。這個作用在國內的《線性代數》教學中基本沒有介紹。要能形像地理解這一作用，比較直觀的方法就是影象變換，影象變換

CTC學習筆記（二）訓練和公式推導

整體思路訓練流程和傳統的神經網路類似，構建loss function，然後根據BP演算法進行訓練，不同之處在於傳統的神經網路的訓練準則是針對每幀資料，即每幀資料的訓練誤差最小，而CTC的訓練準則是基於序列（比如語音識別的一整句話）的，比如最大化p(z|x

Coursera deeplearning.ai 深度學習筆記1-4-Deep Neural Networks-深度神經網路原理推導與程式碼實現

在掌握了淺層神經網路演算法後，對深度神經網路進行學習。 1. 原理推導 1.1 深度神經網路表示定義：L表示神經網路總層數，上標[l]代表第l層網路，n[l]代表第l層的節點數，a[l]

BP神經網路原理推導

本文會完成BP神經網路的推導過程，先介紹BP神經網路的歷史，然後介紹BP神經網路的結構，然後再開始推導，最後介紹BP神經網路的優缺點以及幾個優化的方法。目錄 1 BP神經網路的歷史 2 BP神經網路的結構 2.1 神經元 2.2 輸入層 2.3 隱含層 2.4 輸出層

二分類神經網路公式推導過程

1. 資料表示說明

2. 正向傳播

3. 交叉熵損失函式的推導過程

4. 反向傳播（隨機梯度下降法）

5. 引數更新

6. 通過具體的例子解釋反向傳播的公式

7. 參考內容

相關推薦