神經網路學習——BP神經網路筆記

阿新 • • 發佈：2018-12-12

神經網路學習，又叫做神經網路的訓練演算法，可以通過計算和更新神經網路本身的權值和閾值，加強網路自身的學習能力。

一.神經元模型

神經網路最基本的模型就是神經元模型，也是神經網路中的簡單單元。神經元常用的簡單模型是M-P神經元模型，如下所示：

閾值：就相當於神經元的興奮電位，當這個神經元的輸入電位 $\sum xiwi$ 大於這個神經元的閾值時，它就會被啟用，向其他神經元傳送電位，所以輸出 $y=f(\sum_{i=1}^{n}wixi-\theta )$ ,而函式f表示的是一個啟用函式，它將函式的輸出值擠壓到（0,1）的範圍之內，函式影象如下

其他常用的也有符號函式什麼的，不過不夠光滑。

為了簡化表示，通常我們把閾值 θ記為 −w0，並假想有一個附加的常量輸入 x0=1，那麼我們就可以把神經元的輸入記為 ∑ni=0wixi 或以向量形式寫為 w⋅x，把輸出記為 y=f(∑ni=0wixi)。

把許多個這樣的神經元按一定層次組合，就得到一個神經網路。

二.感知機

感知機由兩層神經元組成，輸入層接受外部訊號後傳給輸出層，輸出層就是M-P神經元，亦稱“閾值邏輯單元”，由閾值的大小將輸入的資料分為多種邏輯組合。感知機的啟用函式 ff 就是之前介紹過的階躍函式，因而我們可以把感知機函式寫為

$y=sgn(w*x)$

y=sgn(x)就是我們熟悉的符號函式。還可以把感知機看作是 n 維例項空間中的超平面決策面，對於超平面一側的例項，感知器輸出 1，對於另一側的例項輸出 0，這個決策超平面方程是 w⋅x=0。那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)

樣例集合，它們就可以使用感知機表示。

所以，給定訓練集，感知機的權重wi和閾值 $\theta i$ 就可以通過學習得到。由上述可以閾值也可以當做一個-1w0的權值，所以學習過程就可以統一為權值的學習。學習規則非常簡單，對訓練樣本(x,y)，若當前感知機輸出為 $\check{y}$ ，則調整公式如下：

$wi=wi+\Delta w$

$\Delta wi=\eta (y-\check{y})xi$

其中， $\eta$ 為學習率，若感知機預知正確，則 $\Delta wi=0$ ，感知機不發生變化，否則將根據錯誤的程度進行權重調整。

從上面的知識知道，感知機只有一層功能神經元（所謂功能神經元，就是有閾值的神經元，輸入層是沒有閾值的），學習能力差，只能解決線性問題，甚至不能求解異或這樣的非線性可分的問題。

要解決非線性可分的問題，需要使用多層功能神經元，所以在輸入層和輸出層之間通常會加入一層或多層隱含層，隱含層和輸出層都是具有啟用函式和閾值的功能神經元。更一般的，常見的神經網路是如下圖所示的層次結構，神經元之間不存在同層連線，也不能跨層連線，這樣的神經網路通常被稱為多層前饋神經網路。

單隱層的神經網路是最常見的神經網路，我們的BP神經網路就是這種。已經證明，只需一個包含足夠多的神經元的隱層，多層前饋神經網路就能以任意精度逼近任意複雜度的連續函式，雖然我不知道也不關心怎麼證明的，然而個數的設定仍是未解問題，還得靠試錯法調整。

三.誤差逆傳播演算法——BP演算法

這是一種典型的有導師指導的學習演算法，基本思想就是對一定數量的樣本對（輸入和期望輸出）進行學習，即將樣本的輸入傳入送至網路輸入層的各個神經元，經隱含層和輸出層計算後，輸出層各個神經元輸出對應的預期值，若預期值與期望的輸出之間不滿足誤差精度要求，則從輸出層反向傳播該誤差（注意傳播的是誤差），並通過權值和閾值的修改公式進行修改，使得整個網路的輸出和期望輸出的誤差不斷減小，直到滿足精度為止。

也就是說，BP網路是將網路的輸出與期望輸出間的誤差歸結為權值和閾值的過錯，反向傳播將誤差分攤給各個功能神經元，權值和閾值的調整也要沿著誤差函式下降最快的方向——負梯度方向進行調整，調整公式就是重中之重。

給定一個樣本矩陣， $X=[x1,x2,....xm],Y=[y1,y2,......ym]$ ，並且有一個擁有d個輸入神經元，l個輸出神經元，q個隱層神經元的多層前饋神經網路結構，輸出層第j個神經元的閾值

為 $\theta j$ ，隱含層閾值為 $\gamma j$ ；輸入層與隱含層的神經元連線為 $Vih$ ，隱含層與輸出層的神經元連線為 $Whj$ ，則隱含層第h個神經元的輸入為

$\alpha _{h}=\sum_{i=1}^{d}VihXi$

輸出層第j個神經元接收到的輸入為

$\beta j=\sum_{h=1}^{q}W_{hj}b_{h}$

Bh為隱層第h個神經元的輸出。對訓練例（xk,yk），假定神經網路的輸出為 $\check{y_{k}}=(\check{y_{1}},\check{y_{2}},.......\check{y_{l}})$

即 $\check{y_{j}^{k}}=f(\beta _{j}-\theta _{j})$

則網路在（xk,yk）上的均方誤差為

$E_{k}=\frac{1}{2}\sum_{j=1}^{l}(\check{y}_{j}^{k}-y_{j}^{k})^{2}$

這個就是我們要縮小和反向傳播的誤差值，BP是一個迭代學習演算法，在迭代的每一輪中採用廣義的感知機學習規則對引數進行更新和評估，所以，任意引數的更新公式都為

$v=v+\Delta v$

BP演算法基於梯度下降策略，以目標的負梯度方向對引數進行調整，對誤差Ek,給定學習率 $\eta$ ，有

$\Delta w_{hj}=-\eta \frac{\partial E_{k}}{\partial w_{hj}}$

注意， $w_{hj}$ 先影響到第j個輸出層神經元的輸入值 $\beta _{j}$ ，再影響到其輸出值 $\check{y_{j}^{k}}$ ，然後影響到Ek，這就是整個誤差逆傳遞的過程，有

$\tfrac{\partial E_{k}}{\partial w_{hj}}=\tfrac{\partial E_{k}}{\partial \check{y_{j}^{k}}}\cdot \frac{\partial \check{y}_{j}^{k}}{\partial \beta _{j}} \cdot \frac{\partial \beta _{j}}{\partial w_{hj}}$

而

$\frac{\partial \beta _{j}}{\partial w_{hj}}=b_{h}$

且

$f{}'(x)=f(x)(1-f(x))$

所以有

$g_{j}=-\frac{\partial E_{k}}{\partial \check{y}_{j}^{k}}\cdot \frac{\partial \check{y}_{j}^{k}}{\partial \beta _{j}} =-(\check{y}_{j}^{k}-y_{j}^{k})\cdot f{}'(\beta _{j}-\theta _{j}) =\check{y}_{j}^{k}(1-\check{y}_{j}^{k})(y_{j}^{k}-\check{y}_{j}^{k})$

所以聯立幾個式子，有

$\Delta w_{hj}=\eta g_{i}b_{h}$

類似的，所有閾值和權值的更新公式都可以由上述的近似方法得到，有

$\Delta \theta _{j}=-\eta g_{j}$

$\Delta v_{ih}=\eta e_{h}x_{i}$

$\Delta \gamma _{h}=-\eta e_{h}$

其中，

$e_{h}=-\frac{\partial E_{k}}{\partial b_{h}}\cdot \frac{\partial b_{h}}{\partial \alpha _{h}}$ $=b_{h}(1-b_{h})\sum_{j=1}^{l}w_{hj}g_{j}$

所以，我們得到整個BP神經網路的計算過程

輸入：訓練集D=（xk,yk），學習率 $\eta$ $\in$ (0,1)

過程：

1.在(0,1)範圍內隨機初始化網路中所有連線權和閾值

2.repeat

3. for all (xk,yk)

4. 根據當前引數和式（5.3）計算當前樣本的輸出 $\check{y_{k}}$

5. 根據式（5.10）計算輸出層神經元的梯度項 $g_{i}$

6. 根據式（5.15）計算隱含層神經元的梯度項 $e_{i}$

7. 根據式（5.11）-（5.14）更新連線權 $w_{hj},w_{ih}$ 與閾值 $\theta _{j},\gamma _{j}$

8. end for

9. until 達到停止條件

輸出：連線權與閾值確定的多層前饋神經網路

具體例項和程式碼，就等到下篇文章再記吧~

注：參考資料：《機器學習》周志華

神經網路學習——BP神經網路筆記

神經網路學習，又叫做神經網路的訓練演算法，可以通過計算和更新神經網路本身的權值和閾值，加強網路自身的學習能力。一.神經元模型神經網路最基本的模型就是神經元模型，也是神經網路中的簡單單元。神經元常用的簡單模型是M-P神經元模型，如下所示：閾值：就

簡單易學的機器學習演算法——神經網路之BP神經網路

%% BP的主函式 % 清空 clear all; clc; % 匯入資料 load data; %從1到2000間隨機排序 k=rand(1,2000); [m,n]=sort(k); %輸入輸出資料 input=data(:,2:25); output1 =data(:,1); %把輸出從1維變

機器學習BP神經網路，任意拓撲結構（C++）

這次的版本更優秀了的樣子！按照老闆說的，每個節點是單獨的匯出節點（會導致sigmod訓練變慢，原因sigmod層數多了，梯度會下降很快導致爆炸。）換個啟用函式就行了。 net<10>表示網咯有10個節點然後input.txt裡的檔案格式大概是 n 0 1

跟著學之網路學習第一課（筆記）

一 WAN：廣域網 LAN: 區域網 MAN: 都會網路 WLAN:無線區域網扁平化：小型，不易擴張層次化：核心層，匯聚層，接入層二 IP網路三大網：接入網都會網路廣域網都會網路包含核心層匯聚層接入層傳輸介質：兩個終端，用一條能

計算機網路學習四：網路層

1 基本概念網路層（Network Layer）是OSI模型的第三層，它是OSI參考模型中最複雜的一層，也是通訊子網的最高一層。它在下兩層的基礎上向資源子網提供服務。其主要任務是：通過路由選擇演算法，為報文或分組通過通訊子網選擇最適當的路徑。該層控制資料鏈路層與傳輸層

無線通訊網路學習之LTE網路架構篇(20141208)

今天來學習一下LTE的網路架構： 1.LTE網路架構簡化了既有通訊網路架構，並可以與其他IP網路進行通訊的無縫整合，使其成為扁平化的全IP網路架構(Falt-All-IP); 2.改網路主要由EPC(核心網)與E-UTRAN組成，通過其他傳輸介質接入其他通訊網路，如下圖所示

深度學習模型網路學習之分類網路學習

1. VGG 作者團隊，發表時間 University of Oxford， ICLR-2015 文章解決的問題提高分類準確率解決的方案只使用3x3的卷

小川學習筆記--BP神經網路JAVA程式碼解析

小川學習筆記–BP神經網路JAVA程式碼解析闊別有些時日了，今天我就寫一篇最近學習BP神經網路JAVA程式碼的一個筆記，我們大家都知道BP神經網路是在上個世紀進行了兩次熱潮，由於反向傳播的發現從而促進了神經網路的發展。由於筆者在本科期間還未學習過JAVA，因此還在學習階段，對於一些程式

神經網路學習筆記（1）Image Classification

學習網站：資料驅動方法 KNN（例如採用L1曼哈頓距離）程式碼如下： import numpy as np class NearestNeighbor: def train(self,X,y): self.Xtrain=X self

神經網路學習（3）————BP神經網路以及python實現

一、BP神經網路結構模型 BP演算法的基本思想是，學習過程由訊號的正向傳播和誤差的反向傳播倆個過程組成，輸入從輸入層輸入，經隱層處理以後，傳向輸出層。如果輸出層的實際輸出和期望輸出不符合

卷積神經網路-學習筆記

1. Edge Detection Vertical Edge Detection: Convolve the image with Matrix

神經網路學習(三)——BP神經網路演算法

前面學習了感知器和自適應線性神經網路。下面介紹經典的三層神經網路結構，其中每個神經元的啟用函式採用Sigmoid。PS：不同的應用場景，神經網路的結構要有針對性的設計，這裡僅僅是為了推導演算法和計算方便才採用這個簡單的結構。訓練步驟： 1.正向傳播 2.反向傳播(BP)

【機器學習筆記22】神經網路(卷積神經網路)

【參考資料】【1】《面向機器智慧的tensorflow實踐》【2】Keras/example – mnist_cnn.py 【3】Keras中文文件常用層卷積層卷積理解就是之前影象處理裡用作檢測邊緣、檢測角點的運算元，例如: 輸入: [1234] \

機器學習之BP神經網路演算法實現影象分類

BP 演算法是一個迭代演算法，它的基本思想為：(1) 先計算每一層的狀態和啟用值，直到最後一層（即訊號是前向傳播的）；(2) 計算每一層的誤差，誤差的計算過程是從最後一層向前推進的（這就是反向傳播演算法名字的由來）；(3) 更新引數（目標是誤差變小），迭代前面兩

java深度學習框架Deeplearning4j實戰（一）BP神經網路分類器

1、Deeplearning4j 深度學習，人工智慧今天已經成了IT界最流行的詞，而tensorflow,phython又是研究深度學習神經網路的熱門工具。tensorflow是google的出品，而phython又以簡練的語法，獨特的程式碼結構和語言特性為眾多資料科學家和

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

機器學習筆記（六）-吳恩達視訊課程（神經網路學習二）

1.代價函式神經網路層數L，表示L層（最後一層）神經元個數，表示每層的輸出神經元數二類分類：=1 輸出層有一個神經元，輸出的y是一個實數 y = 0 or 1 表示類別多類別分類：一共有K類，則=K，輸出層有K個神經元，&nbs

CNN卷積神經網路學習筆記1：背景介紹

Convolutional Neural Network 卷積神經網路是基於人工神經網路提出的。人工神經網路模擬人的神經系統，由一定數量的神經元構成。在一個監督學習問題中，有一組訓練資料(xi,yi)，x是樣本，y是label，把它們輸入人工神經網路，

深入淺出|深度學習演算法之BP神經網路詳細公式推導

所謂神經網路，目前用得最廣泛的一個定義是“的神經網路是由具有適應性簡單單元組成的廣泛並行互連的網路，它的組織能夠模擬生物神經系統對真實世界物體所做出的互動反應”。 BP(back propagation)神經網絡一種按照誤差逆向傳播演算法訓練的多層前饋神經網路，是目前應用

【機器學習演算法推導】BP神經網路

非線性問題對於一張汽車圖片，如何將其識別為汽車呢？我們人可能看一眼就能識別出來，但是如何讓計算機也擁有同樣的技能呢？我們知道，一張圖片在計算機中都是以畫素矩陣的形式儲存的，無論是一輛汽車，還是一輛飛機，在計算機中都是一個個矩陣，並無法直觀地感受到這個矩陣代表是汽車還是飛機。用邏輯迴