python3機器學習神經網路基礎演算法__梯度下降演算法

阿新 • • 發佈：2019-01-14

1.概述

【說明】

梯度下降演算法（Gradient Descent Optimization）是神經網路模型訓練最常用的優化演算法（n緯問題求最優解，梯度下降是最常用的方法）；對於深度學習模型，基本都是採用梯度下降演算法來進行優化訓練。

【場景假設】

一人被困山上，需從山上下來(i.e. 找到山的最低點，也就是山谷)。但此時山上的濃霧很大，導致可視度很低。因此，下山的路徑就無法確定，他必須利用自己周圍的資訊去找到下山的路徑。這個時候，他就可以利用梯度下降演算法來幫助自己下山。具體來說就是，以他當前的所處的位置為基準，尋找這個位置最陡峭的地方，然後朝著山的高度下降的地方走

，同理，如果我們的目標是上山，也就是爬到山頂，那麼此時應該是朝著最陡峭的方向往上走。然後每走一段距離，都反覆採用同一個方法，最後就能成功的抵達山谷。

【梯度下降的基本過程】

首先，有一個可微分的函式（山），目標是找到函式的最小值（山底），依據之前的場景假設，最快的下山的方式是沿著當前位置最陡峭的方向，然後沿著此最陡峭的方向往下走，對應到可謂分的函式中，即找到給定點的梯度（是目標函式上升最快的方向），然後朝著梯度相反的方向，就能讓函式值下降的最快。

反覆使用該方法，反覆求取梯度，最後就能達到區域性的最小值。

2.梯度

（J(Θ) = 0.55-(5θ1+2θ2-12θ3)）梯度是通過<>包裹起來的一組

偏導的向量。梯度（多元微分：偏導數）是微分中一個十分重要的概念，意義如下：

①在單變數函式中，梯度即函式的微分，代表著函式在某個給定點的切線的斜率

②在多變數函式中，梯度即向量，向量有方向，梯度的方向就是函式在給定點上升最快的方向

因此，若想找到函式的最小值，則需要千方百計的求取梯度，梯度的方向時函式上升最快的方向，梯度的反方向就是函式在給定點下降最快的方向。

3.梯度下降演算法的數學解釋

J(Θ0)：關於Θ0的函式，即目標函式

Θ0：current position當前所在位置

Θ1：next position 變換後的位置(下降一次)

α：學習率或者步長（太大太小均不好：太大，易錯過最低點；太小，效率太低）

▽J(Θ0)：即引數Θ-的梯度

負號：朝梯度相反的方向前進

4.梯度下降演算法例項

4.1 單變數函式的梯度下降

目標函式：

Θ0： 1

α：0.4

import numpy as np
import matplotlib.pyplot as plt


def gradient_decent(x, a):
    return x-a*2*x


if "__main__" == __name__:
    lx = []
    x = 1.0
    for i in range(5):
        lx.append(x)
        y = gradient_decent(x, 0.4)
        x = y

    plt.figure(111, figsize=(9, 9))
    plt.title("one-dimension Gradient Decent", fontsize=15)

    # np.arange: 返回給定區間內的等間距值
    x1 = np.arange(-1.2, 1.2, step=0.001)
    y1 = np.power(x1, 2)
    x2 = np.sqrt(lx)
    plt.plot(x1, y1, label="target-func", color="black")
    plt.plot(x2, lx, label="gradient", color="red", marker="o")

    plt.xlabel("x", fontsize=15)
    plt.ylabel("y", fontsize=15)
    plt.legend()
    plt.show()

4.2 多變數函式的梯度下降

目標函式：

Θ0：（1， 3）

α：0.1

5.梯度下降演算法的實現

【場景】線性迴歸

【損失函式】

①m是資料集中點的個數

②½是一個常量，這樣是為了在求梯度的時候，二次方乘下來就和這裡的½抵消了，自然就沒有多餘的常數係數，方便後續的計算，同時對結果不會有影響

③y 是資料集中每個點的真實y座標的值

【原函式】

【梯度】

5.1 梯度下降主體演算法

def gradient_descent(X, y, alpha):
    """
    梯度下降迭代計算
    :param X: 函式係數
    :param y: 真實的函式值
    :param alpha: 學習速率
    :return: 最低點座標
    """
    # 梯度下降 ==> 初始座標
    theta = np.array([1, 1]).reshape(2, 1)
    
    # 當前座標對應的 ==> 梯度
    gradient = gradient_function(theta, X, y)

    # np.absolute:逐個元素的計算絕對值
    # np.all:測試給定條件下是否全部元素為True
    while not np.all(np.absolute(gradient) <= 1e-5):

        # 計算下一個座標
        theta = theta - alpha*gradient
        gradient = gradient_function(theta, X, y)
    return theta

5.2 計算當前座標對應的梯度值

def gradient_function(theta, X, y):
    """
    計算當前座標theta對應的梯度
    :param theta: 當前位置              (2, 1)
    :param X: 輸入變數   [1, 變數值]     (m, 2)
    :param y: 真實值                    (m, 1)
    :return: 梯度值
    """
    # diff.shape: (m, 1)
    # 計算預測值與真實值之間的誤差
    # 為了對這個公式進行矩陣化，我們可以給每一個點x增加一維，這一維的值固定為1，這一維將會乘到Θ0上。這樣就方便我們統一矩陣化的計算
    diff = np.dot(X, theta) - y
    return (1./m)*np.dot(np.transpose(X), diff)

5.3 依據最低點座標反推出損失值

def error_function(min_gradient, X, y):
    """
    根據最小梯度反推出對應的 ”損失值“
    :param min_gradient: minimum gradient
    :param X: 輸入變數   [1, num]              (m, 2)
    :param y: 真實值                           (m, 1)
    :return: 最低點對應的損失值
    """

    # np.dot:計算兩個陣列的點積(矩陣乘法)
    # X: (m, 2)
    # min_gradient: (2, 1)
    # diff: (m, 1)
    diff = np.dot(X, min_gradient) - y

    # 計算最低點座標對應的誤差平方和
    # np.transpose: 將陣列的行列互換
    return (1./2*m)*np.dot(np.transpose(diff), diff)

5.4 程式呼叫入口

if "__main__" == __name__:
    # ====定義資料集
    # 資料量
    m = 20
    # inputX
    x0 = np.ones((m, 1))
    x1 = np.arange(1, m + 1).reshape(m, 1)

    # hp.hstack: 按順序堆疊陣列
    # fuction: 405.98496249324046
    X = np.hstack((x0, x1))

    y = np.array([3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12, 11, 13, 13, 16, 17, 18, 17, 19, 21]).reshape(m, 1)
    # 學習速率/步長
    alpha = 0.01

    # 獲得最低點
    optimal = gradient_descent(X, y, alpha)
    print("optimal:", optimal)
    # 根據最低點反推損失值
    print("error function:", error_function(optimal, X, y)[0, 0])

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練細節系列筆記：通過學習，我們知道，因為訓練神經網路有個過程: <1>Sample 獲得一批資料； <2>Forward 通過計算圖前向傳播，獲得loss； <3>Backprop 反向傳播計算梯度，這

coursera《機器學習》吳恩達-week1-03 梯度下降演算法

梯度下降演算法最小化代價函式J 梯度下降使用全機學習最小化首先檢視一般的J()函式問題我們有J(θ0, θ1) 我們想獲得 min J(θ0, θ1) 梯度下降適用於更一般的功能 J(θ0, θ1, θ2 …. θn) min J(θ0, θ

100天搞定機器學習|Day36用有趣的方式解釋梯度下降演算法

本文為3Blue1Brown神經網路課程講解第二部分《Gradient descent, how neural networks learn 》的學習筆記，觀看地址：www.bilibili.com/video/av16144388前文我們已經搭建了一個包含兩個隱藏層的神經網路，我們需要這樣一種演算法：網路得

python3機器學習神經網路基礎演算法__偏執項b

1.前言很多人不明白為什麼要在神經網路、邏輯迴歸中要在樣本X的最前面加一個1，使得 X=[x1,x2,…,xn] 變成 X=[1,x1,x2,…,xn] 。因此可能會犯各種錯誤，比如漏了這個1，或者錯誤的將這個1加到W·X的結果上，導致模型出各種bug甚至

python3機器學習神經網路基礎演算法__反向傳播演算法

1.反饋神經網路原理及公式推導梯度下降演算法在衡量模型的優劣的過程中，需要計算梯度，即求不同權重的偏導數。因此，當隱層神經元個數增加（權重個數增加）或隱層個數增加（求導過程拉長）會大大拉長計算過程，即很多偏導數的求導過程會反覆涉及到，因此在實際中對於權值達到上十萬和上百萬的神經網路

python3機器學習神經網路基礎演算法__最小二乘法（LS演算法）

1.LS演算法說明 LS演算法是一種數學優化技術，也是一種機器學習常用演算法。他通過最小化誤差的平方和尋找資料的最佳函式匹配。利用最小二乘法可以簡便的求得未知的資料(1)，並使得這些求得的資料與實際資料之間誤差的平方和最小。除此之外最小二乘法還可用於曲線擬合(2)，其他一些優化問題(

python3機器學習神經網路基礎演算法__梯度下降演算法

1.概述【說明】梯度下降演算法（Gradient Descent Optimization）是神經網路模型訓練最常用的優化演算法（n緯問題求最優解，梯度下降是最常用的方法）；對於深度學習模型，基本都是採用梯度下降演算法來進行優化訓練。【場景假設】一人被困山上

吳恩達機器學習筆記-神經網路的代價函式和反向傳播演算法

代價函式在神經網路中，我們需要定義一些新的引數來表示代價函式。 L = total number of layers in the network $s_l$ = number of units (not counting bias unit) in layer

專注機器學習、深度學習、神經網路、自然語言處理、演算法、Python體系、分散式爬蟲等

深度整理AI學習資料，長期更新機器學習實戰中文文字版，帶完整書籤，能複製文字出來。還有英文版，中文掃描版，原始碼，讀書筆記等，非常全面；機器學習-實用案例解析，中英文版，帶完整

第1課神經網路和深度學習第2周__神經網路基礎

第1課__神經網路和深度學習__第2周__神經網路基礎 ======================= 目錄 2.1 二分分類 2.2 logistic迴歸 2.3 logistic迴歸代價函式 2.4 梯度下降法 2.5 導數 2.6 更多導數的例子 2.7 計算圖

機器學習入門-神經網路&BP演算法的實現

在MP神經元模型之中，神經元接收到來自其它n個神經元傳遞過來的輸入訊號，這些輸入訊號通過帶權重的連線2進行傳遞，神經元接收到的總輸入值與神經元的閾值進行比較，然後通過啟用函式處理以產生神經元的輸出。一般而言選取sigmoid函式作為啟用函式來使用，因為其相對啟用

機器學習之神經網路bp演算法推導

這是一篇學習UFLDL反向傳導演算法的筆記，按自己的思路捋了一遍，有不對的地方請大家指點。首先說明一下神經網路的符號： 1. nl 表示神經網路的層數。 2. sl 表示第 l 層神經元個數，不包含偏置單元。 3. z(l)i 表示第 l 層第 i 個

人工智慧、機器學習和神經網路計算棒走出試驗室的應用場景

跟著“人工智慧”走出試驗室、逐步有了實踐的應用場景，它成為了一項可能在不久的將來徹底改動人類社會的根底技能，也成為了很多人最愛評論的論題。可是，AI（人工智慧）、機器學習、神經網路計算棒，這些詞看著潮，究竟是指什麼呢？別慌，咱們試著舉幾個簡略的比方來解釋一下。人工智慧 “科技

人工智慧，機器學習，神經網路，深度學習的關係

目錄機器學習有監督學習和無監督學習神經網路剛剛接觸人工智慧的內容時，經常性的會看到人工智慧，機器學習，深度學習還有神經網路的不同的術語，一個個都很高冷，以致於傻傻分不清到底它們之間是什麼樣的關係，很多時候都認為是一個東西的不同表達而已，看了一些具體的介紹後才漸漸有了一個大

【GitChat】從機器學習到神經網路

訂閱地址：從機器學習到神經網路人工智慧已經是各大媒體經常聚焦的話題，人工智慧、機器學習、深度學習與神經網路之間究竟是怎樣的關係？神經網路是深度學習的重要基礎，作為實現人工智慧的技術之一，曾經在歷史的長河中沉睡了數十年，為何又能夠重新甦醒、熠熠生輝。本文將詳細介紹神經網路的前生今世

機器學習_3.神經網路之CNN

卷積神經網路卷積神經網路（Convoltional Neural Networks, CNN）是一類包含卷積或相關計算且具有深度結構的前饋神經網路（Feedforward Neural Networks），是深度學習（deep learning）的代表演算法之一

機器學習_2.神經網路之DBN

深度信念網路（DBN）深度信念網路是一個概率生成模型，與傳統的判別模型的神經網路相對，生成模型是建立一個觀察資料和標籤之間的聯合分佈，對P(Observation|Label)和 P(Label|Observation)都做了評估，而判別模型僅僅而已評估了後者，也就是P(Label|O

機器學習_1.神經網路的研究和學習（一）

人工神經網路 — —百度百科人工神經網路（Artificial Neural Network，即ANN ），是20世紀80 年代以來人工智慧領域興起的研究熱點。它從資訊處理角度對

從機器學習到神經網路

人工智慧已經是各大媒體經常聚焦的話題，人工智慧、機器學習、深度學習與神經網路之間究竟是怎樣的關係？神經網路是深度學習的重要基礎，作為實現人工智慧的技術之一，曾經在歷史的長河中沉睡了數十年，為何又能夠重新甦醒、熠熠生輝。本文將詳細介紹神經網路的前生今世，以及它的基本結構、實現形式和核心要點。歡迎感

Hinton《面向機器學習的神經網路》中文版視訊教程

Hinton《面向機器學習的神經網路》中文版開課時間：深度學習鼻祖Hinton公開課視訊，隨到隨學開課時長：16個章節，系統學習神經網路知識體系連結： http://www.mooc.ai/course/58 後記

python3__機器學習__神經網路基礎演算法__梯度下降演算法

1.概述

2.梯度

3.梯度下降演算法的數學解釋

4.梯度下降演算法例項

4.1 單變數函式的梯度下降

4.2 多變數函式的梯度下降

5.梯度下降演算法的實現

5.1 梯度下降主體演算法

5.2 計算當前座標對應的梯度值

5.3 依據最低點座標反推出損失值

5.4 程式呼叫入口

相關推薦

python3機器學習神經網路基礎演算法__梯度下降演算法