反向傳播（BP演算法）python實現

阿新 • • 發佈：2018-12-01

反向傳播（BP演算法）python實現

1、BP演算法描述

BP演算法就是反向傳播，要輸入的資料經過一個前向傳播會得到一個輸出，但是由於權重的原因，所以其輸出會和你想要的輸出有差距，這個時候就需要進行反向傳播，利用梯度下降，對所有的權重進行更新，這樣的話在進行前向傳播就會發現其輸出和你想要的輸出越來越接近了。

上面只是其簡單的原理，具體實現起來其實就是利用了鏈式法則，逐步的用誤差對所有權重求導，這樣便反向得到了誤差對每個權重的梯度，然後再把所有的梯度更新一下即可。

其中每一層的w的梯度可以用下面的公式計算，下面的公式是摘自吳恩達老師的筆記，這個是一個兩層的網路， $d$

w [ 2 ] dw^{[2]}

d w^{[2]}

代表誤差對最後一層的w的導數，

dw^{[1]}

代表第一層，其實除了最後一層，前面的可以抽象成一個公式，比如誤差對第

l

層（

l

為非最後一層）的權重的導數為

dw^{[l]} =dz^{l} a^{[l-1]^T}

其中

a^{[0]} = x

，這樣的話我們就可以求出一個對任意層的權重的梯度了。（

z^{[l]} 代表第l層未啟用的輸出

a^{[l]} 代表第l層啟用的輸出

，這些基本符號的含義可以參考吳恩達筆記的定義）

在這裡插入圖片描述

並且我們從公式也可以看出來，如果計算權重的梯度，我們需要 $z、a、w$ ，所以我們在編制程式碼的時候需要注意，在進行前向傳播的時候要把z和a暫存起來，這樣在進行反向傳播的時候就可以直接拿來用了。

Notice： 在圖片中的乘分為兩種，如果是ab則在python中用點乘就是a.dot(b)，而ab則在python中用ab 二者去唄是a.dot(b)就是矩陣運算，而a*b則是對應元素乘。

2、基於梯度下降的反向傳播的程式碼實現

# 生成權重以及偏執項layers_dim代表每層的神經元個數，
#比如[2,3,1]代表一個三成的網路，輸入為2層，中間為3層輸出為1層
def init_parameters(layers_dim):
    
    L = len(layers_dim)
    parameters ={}
    for i in range(1,L):
        parameters["w"+str(i)] = np.random.random([layers_dim[i],layers_dim[i-1]])
        parameters["b"+str(i)] = np.zeros((layers_dim[i],1))
    return parameters

def sigmoid(z):
    return 1.0/(1.0+np.exp(-z))

# sigmoid的導函式
def sigmoid_prime(z):
        return sigmoid(z) * (1-sigmoid(z))

# 前向傳播，需要用到一個輸入x以及所有的權重以及偏執項，都在parameters這個字典裡面儲存
# 最後返回會返回一個caches裡面包含的 是各層的a和z，a[layers]就是最終的輸出
def forward(x,parameters):
    a = []
    z = []
    caches = {}
    a.append(x)
    z.append(x)
    layers = len(parameters)//2
    # 前面都要用sigmoid
    for i in range(1,layers):
        z_temp =parameters["w"+str(i)].dot(x) + parameters["b"+str(i)]
        z.append(z_temp)
        a.append(sigmoid(z_temp))
    # 最後一層不用sigmoid
    z_temp = parameters["w"+str(layers)].dot(a[layers-1]) + parameters["b"+str(layers)]
    z.append(z_temp)
    a.append(z_temp)
    
    caches["z"] = z
    caches["a"] = a    
    return  caches,a[layers]

# 反向傳播，parameters裡面儲存的是所有的各層的權重以及偏執，caches裡面儲存各層的a和z
# al是經過反向傳播後最後一層的輸出，y代表真實值
# 返回的grades代表著誤差對所有的w以及b的導數
def backward(parameters,caches,al,y):
    layers = len(parameters)//2
    grades = {}
    m = y.shape[1]
    # 假設最後一層不經歷啟用函式
    # 就是按照上面的圖片中的公式寫的
    grades["dz"+str(layers)] = al - y
    grades["dw"+str(layers)] = grades["dz"+str(layers)].dot(caches["a"][layers-1].T) /m
    grades["db"+str(layers)] = np.sum(grades["dz"+str(layers)],axis = 1,keepdims = True) /m
    # 前面全部都是sigmoid啟用
    for i in reversed(range(1,layers)):
        grades["dz"+str(i)] = parameters["w"+str(i+1)].T.dot(grades["dz"+str(i+1)]) * sigmoid_prime(caches["z"][i])
        grades["dw"+str(i)] = grades["dz"+str(i)].dot(caches["a"][i-1].T)/m
        grades["db"+str(i)] = np.sum(grades["dz"+str(i)],axis = 1,keepdims = True) /m
    return grades

# 就是把其所有的權重以及偏執都更新一下
def update_grades(parameters,grades,learning_rate):
    layers = len(parameters)//2
    for i in range(1,layers+1):
        parameters["w"+str(i)] -= learning_rate * grades["dw"+str(i)]
        parameters["b"+str(i)] -= learning_rate * grades["db"+str(i)]
    return parameters
# 計算誤差值
def compute_loss(al,y):
    return np.mean(np.square(al-y))

# 載入資料
def load_data():
    """
    載入資料集
    """
    x = np.arange(0.0,1.0,0.01)
    y =20* np.sin(2*np.pi*x)
    # 資料視覺化
    plt.scatter(x,y)
    return x,y
#進行測試
x,y = load_data()
x = x.reshape(1,100)
y = y.reshape(1,100)
plt.scatter(x,y)
parameters = init_parameters([1,25,1])
al = 0
for i in range(4000):
    caches,al = forward(x, parameters)
    grades = backward(parameters, caches, al, y)
    parameters = update_grades(parameters, grades, learning_rate= 0.3)
    if i %100 ==0:
        print(compute_loss(al, y))
plt.scatter(x,al)
plt.show()

結果顯示：

在這裡插入圖片描述

從結果可以看出來幾乎能對一條非線性線進行完全擬合了。

參考：

https://blog.csdn.net/qq_28888837/article/details/82901011
https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702020&cid=2001700045

反向傳播（BP演算法）python實現

反向傳播（BP演算法）python實現 1、BP演算法描述 BP演算法就是反向傳播，要輸入的資料經過一個前向傳播會得到一個輸出，但是由於權重的原因，所以其輸出會和你想要的輸出有差距，這個時候就需要進行反向傳播，利用梯度下降，對所有的權重進行更新，這樣的話在進行前向傳播就會發現其輸

反向傳播演算法（BP演算法）

BP演算法(即反向傳播演算法)，適合於多層神經元網路的一種學習演算法，它建立在梯度下降法的基礎上。BP網路的輸入輸出關係實質上是一種對映關係：一個n輸入m輸出的BP神經網路所完成的功能是從n維歐氏空間向m維歐氏空間中一有限域的連續對映，這一對映具有高度非線性。它的資訊處理能力來源於簡單非線性函式的多

神經網路反向傳播（BP）演算法原理

一.BP演算法簡介 BP演算法的學習過程由正（前）向傳播過程和反向傳播過程組成。 1.正向傳播將訓練集資料輸入到ANN的輸入層，經過隱藏層，最後達到輸出層並輸出結果； 2.反向傳播由於ANN的輸出結果與實際結果有誤差，則計算估計值與

人工智慧起步-反向回饋神經網路演算法（BP演算法）

人工智慧分為強人工與弱人工。弱人工智慧就包括我們常用的語音識別，影象識別等，或者為了某一個固定目標實現的人工演算法

什麽是反向傳播（第二篇）

圖片 ont epm 什麽是 put 回來課程之前 idea 作者韓小雨類比幾個人站成一排，第一個人看一幅畫（輸入數據），描述給第二個人（隱層）……依此類推，到最後一個人（輸出）的時候，畫出來的畫肯定不能看了（誤差較大）。反向傳播就是，把畫拿給最後一個人看（求取

支持中文的基於詞為基本粒度的前綴樹（prefix trie）python實現

情況 key -s path join ret int blank ref Trie樹，也叫字典樹、前綴樹。可用於”predictive text”和”autocompletion”。亦可用於統計詞頻（邊插入Trie樹邊更新或加入詞頻）。在計算機科學中。

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

一、基本內容 1.基本流程決策樹的生成過程是一個遞迴過程，有三種情形會導致遞迴返回（1）當前節點包含的yangben全屬於同一類別，無需劃分；（2）當前屬性集為空，或是所有yangben在所有屬性上的取值相同，無法劃分；（3）當前結點包含的yangben集合為空，不能

《機器學習》周志華學習筆記第三章線性模型（課後習題）python 實現

線性模型一、內容 1.基本形式 2.線性迴歸：均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸：對數機率函式（logistic function）對率函式是任意階可導的凸函式，這是非常重要的性質。 4.線性判別分析（LDA 是一種降維的方法） 5.多分類學習：

《機器學習》周志華學習筆記第八章整合學習（課後習題）python實現

1.個體與整合 1.1同質整合 1.2異質整合 2.boosting:代表AdaBoost演算法 3.Bagging與隨機森林 3.1Bagging 是並行式整合學習方法最著名的代表（基於自主取樣法bootstrap sampling）自己學習時編寫了

《機器學習》周志華學習筆記第六章支援向量機（課後習題）python 實現

一、 1.間隔與支援向量 2.對偶問題 3.核函式 xi與xj在特徵空間的內積等於他們在原始yangben空間中通過函式k(.,.)計算的結果。核矩陣K總是半正定的。 4.軟間隔與正則化軟間隔允許某些samples不滿足約束鬆弛變數 5.支援

《機器學習》周志華學習筆記第五章神經網路（課後習題） python實現

1.神經元模型 2.感知機與多層網路 3.誤差逆傳播演算法 (A)BP演算法：最小化訓練集D上的累積誤差標準BP演算法：更新規則基於單個Ek推導而得兩種策略防止過擬合：（1）早停（通過驗證集來判斷，訓練集誤差降低，驗證集誤差升高）（2）正則化：在誤差目標函式中引入描述網

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。好瓜有8個，壞瓜有9個屬性色澤，根蒂，敲聲，因為是離散屬性，根據公式（7.17） P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

《機器學習》周志華學習筆記第十四章概率圖模型（課後習題）python實現

一、基本內容 1.隱馬爾可夫模型 1.1. 假定所有關心的變數集合為Y,可觀測變數集合為O,其他變數集合為R, 生成式模型考慮聯合分佈P(Y,R,O),判別式模型考慮條件分佈P(Y,R|O)，給定一組觀測變數值，推斷就是要由P(Y,R,O)或者P(Y,R|O)得到條件概率分佈P(Y,

幾種歸一化方法（Normalization Method）python實現

資料歸一化問題是資料探勘中特徵向量表達時的重要問題，當不同的特徵成列在一起的時候，由於特徵本身表達方式的原因而導致在絕對數值上的小資料被大資料“吃掉”的情況，這個時候我們需要做的就是對抽取出來的features vector進行歸一化處理，以保證每個特徵被分類器平等對待。

關聯規則（Association Rules）python實現

前言試著用python實現關聯規則（Apriori演算法），在生成關聯規則的時候遇到問題，不知道怎麼遍歷frequent itemsets中的所有關聯規則。轉專業的一隻小菜雞，初學程式碼，寫的很簡陋，希望各位大牛能指出不足之處。程式碼輸入是num個隨機長度、隨機字

字串相乘（大數相乘） python實現

首先講解兩個小技巧 list 反轉 reverse >>> l=[1,2,3,4,5,6] >>> l.reverse() >>> l [6, 5, 4, 3, 2, 1] str 反轉 [::-1] >>

01揹包問題（動態規劃）python實現

在01揹包問題中，在選擇是否要把一個物品加到揹包中，必須把該物品加進去的子問題的解與不取該物品的子問題的解進行比較，這種方式形成的問題導致了許多重疊子問題，使用動態規劃來解決。n=5是物品的數量，c=10是書包能承受的重量，w=[2,2,6,5,4]是每個物

YOLO原始碼詳解（四）- 反向傳播（back propagation）

反向傳播是CNN中非常重要的一個環節，對於理論部分，這裡不做介紹，如果對反向傳播理論部分不熟悉，可以檢視以下網站。非常詳細：零基礎入門深度學習(3) - 神經網路和反向傳播演算法非常詳細：零基礎入門深度學習(4) - 卷積神經網路非常生動：如

Python的學習（三十） ---- Python實現檔案md5校驗

Linux下校驗檔案MD5值，最簡單的方法就是執行md5sum命令 md5sum filename 原本打算用subprocess呼叫系統命令來獲取md5值， import subprocess,shlex cmd = "md5sum filename" p = subpr

機器學習之深入理解神經網路理論基礎、BP演算法及其Python實現

　　人工神經網路（Artificial Neural Networks，ANN）系統是 20 世紀 40 年代後出現的。它是由眾多的神經元可調的連線權值連線而成，具有大規模並行處理、分散式信息儲存、良

反向傳播（BP演算法）python實現