從線性迴歸案例理解深度學習思想

我不是主攻人工智慧、深度學習方向，但是作為計算機相關領域的學習者，如果不瞭解下，總覺得已經跟不上時代了，況且，人工智慧真的是大勢所趨，學會了，能夠嘗試用在不同領域。

本文將使用迴歸的思想來求解二元一次方程的最佳解，理解深度學習的根本思想。

假設，對於二元一次方程：

y = a * x + b

假設我們能夠採集到一組資料（x，y），這些值都是滿足以上等式的，但是，現實生活中往往不能這樣順利（如果採集的值是精確值，直接列方程組就能求出a和b），我們採集到的每組（x，y）都存在一定偏差，所以，現實中採集到的資料應表示為：

y = a * x + b + r

r表示偏差，這個時候，我們需要通過這一組資料，來找到一組a和b，使得 y = a * x + b 和理想的情況越接近。

為了方便表示，將r表示為：

r = y - （a * x +b）

因為這個值可能為負數，所以用r的平方來表示這個偏差，記為：

loss = [ y - （a * x + b）] ²

這裡用loss記，實際上就理解為模型訓練過程中的“損失”，我們需要找到到一組a和b，使得loss最小。

在數學中，我們會用到極限的思想求解最小值，但是，在深度學習中，是如何找到這個最小loss的呢？

這裡就需要提到梯度下降的思想（這些內容在《計算方法》這門學科中有詳細的說明），通俗地理解，在本文的二元一次方程中，就是初始化一個a和b，然後進行一定次數的迭代，在每次迭代中，調整a和b的值。

將loss表示的函式分別對a和b求偏導數：

dei a = 2 * [ y - ( a * x + b ) ] * x

dei b = 2 * [ y - ( a * x + b ) ]

我們每次調整a和b的值使用如下方法：

new a = a - dei a * learn_rate

new b = b - dei b * learn_rate

實際上，在每輪迭代中，我們將會用收集到的每組資料都來計算dei a和dei b，最終使用平均值，表示經過這一輪，引數a和b需要被調整的大小。

但是，我們發現，調整引數的時候，dei a和dei b還分別乘以了一個learn_rate，這個learn_rate在深度學習模型訓練中叫學習率，一般取一個比較小的值，0.001、0.01等，可以通過嘗試找到最優的值。如果不乘以learn_rate，對a來說，每次需要調整dei a，這個值是很大的，而且會出現不能收斂的情況：

從上圖中可以看到，對同一個loss函式，如果使用0.05的learn_rate，會導致loss在最小值附近波動，不能找到最小值，而使用0.005的學習率，每次調整的範圍更小，且能正確地找到loss的最小值。

通過一定次數的迭代，我們就能找到一組a和b的值，這組a、b能夠使得loss儘可能小，甚至為0，我們近似認為這個方程就是理想情況下的方程：

y = a * x + b

這時，如果給出一個值a1，就可以根據上式得到一個y1值，這就是我們所說的預測值。

這個例子雖然比較簡單，但是包含了深度學習的精髓思想。無論多大的網路模型、資料量，實際上都是對一組引數不斷地進行調整，使得在這組引數的情況下，所得到的一個函式關係，能夠讓loss的值儘可能小（當然，這種標準可以根據不同需求進行修改），換句話說，就是找到一組引數，使得一個關係式儘可能趨近給定的一組資料中的每個對映關係（資料和標籤的對映），然後再根據這個關係式，對新給定的值，給出相應計算結果，這就是就是預測值。

附，本文涉及的程式碼和資料：

import numpy as np

'''
y = a*x+b + noise

loss = (a*x+b - y)**2

die a = 2(a*x+b-y)*x
die b = 2(a*x+b-y)

'''


# 計算損失loss，神經網路模型訓練過程中，一般會在每一輪都輸出一次，檢視訓練效果
def get_loss(a, b, points):
    sum = 0
    for i in points:
        x = i[0]
        y = i[1]

        t = (a * x + b - y) ** 2
        sum = sum + t

    # 因為有多組資料，這裡求平均值，表示當前a，b情況下，表示式和這組資料的平均偏差
    average_loss = sum / float(len(points))

    return average_loss


# 求梯度，調整a，b的值，這是引數能夠被“訓練”的關鍵部分
def step_grad(a, b, learn_rate, points):
    da_sum, db_sum = 0, 0
    for i in points:
        x = i[0]
        y = i[1]
        da_sum = da_sum + 2 * (a * x + b - y) * x
        db_sum = db_sum + 2 * (a * x + b - y)

    num = len(points)
    da = da_sum / float(num)
    db = db_sum / float(num)

    # 返回新的a，b
    return a - learn_rate * da, b - learn_rate * db


# totalnum表示總共迭代次數
def loop(a, b, learn_rate, points, totalnum):
    for i in range(0, totalnum):
        # 每次迭代都會得到一組新的a，b，將其作為下一次迭代的初始值
        a, b = step_grad(a, b, learn_rate, points)

    loss = get_loss(a, b, points)
    print("after ", totalnum, "times, loss: ", loss)
    print("a=", a, " b=", b)


if __name__ == '__main__':
    points = np.genfromtxt("data.csv", delimiter=",")

    # a，b初始化為0，learn_rate設定為0.0001，迭代10000次，points理解為實際情況中，採集到的資料
    loop(0, 0, 0.0001, points, 10000)

csv資料，網盤連結: https://pan.baidu.com/s/1Sknt8dV7kA81IE2ij6bkYw 提取碼: exf2

訓練結果：

從線性迴歸案例理解深度學習思想

從線性迴歸案例理解深度學習思想

《精通資料科學：從線性迴歸到深度學習》筆記

精通資料科學：從線性迴歸到深度學習-學習筆記

深度學習系列（1）——從線性迴歸說起

從極大似然估計的角度理解深度學習中loss函式

機器學習——從線性迴歸到邏輯迴歸【附詳細推導和程式碼】

分享《深度學習與計算機視覺算法原理框架應用》《大數據架構詳解從數據獲取到深度學習》PDF數據集

理解深度學習:與神經網路相似的網路-自編碼器(上)

AI應用開發基礎傻瓜書系列4-用線性迴歸來理解神經網路的訓練過程

動圖形象理解深度學習卷積

一文帶你理解深度學習的侷限性

理解深度學習中的卷積

如何理解深度學習中的卷積？

理解深度學習需要重新思考泛化

從特徵描述子到深度學習：計算機視覺的20年曆程 From feature descriptors to deep learning: 20 years of computer vision

Keras TensorFlow教程：如何從零開發一個複雜深度學習模型

[深度學習大講堂]從NNVM看2016年深度學習框架發展趨勢

直觀理解深度學習的卷積操作，超讚！

幹貨 | 深入理解深度學習中的激活函數

理解深度學習:神經網路的雙胞胎兄弟-自編碼器(上)

從線性迴歸案例理解深度學習思想

相關推薦