機器學習筆記之梯度下降演算法原理講解
0x00 概述
梯度下降(gradient descent)在機器學習中應用十分的廣泛,不論是線上性迴歸還是Logistic迴歸中,它的主要目的是通過迭代找到目標函式的最小值,或者收斂到最小值。
本文將從一個下山的場景開始,先提出梯度下降演算法的基本思想,進而從數學上解釋梯度下降演算法的原理,解釋為什麼要用梯度,最後實現一個簡單的梯度下降演算法的例項!
0x01 梯度下降演算法
1.1 場景假設
梯度下降法的基本思想可以類比為一個下山的過程。
假設這樣一個場景:一個人被困在山上,需要從山上下來(找到山的最低點,也就是山谷)。但此時山上的濃霧很大,導致可視度很低;因此,下山的路徑就無法確定,必須利用自己周圍的資訊一步一步地找到下山的路。這個時候,便可利用梯度下降演算法來幫助自己下山。怎麼做呢,首先以他當前的所處的位置為基準,尋找這個位置最陡峭的地方,然後朝著下降方向走一步,然後又繼續以當前位置為基準,再找最陡峭的地方,再走直到最後到達最低處;同理上山也是如此,只是這時候就變成梯度上升演算法了
1.2 梯度下降
梯度下降的基本過程就和下山的場景很類似。
首先,我們有一個可微分的函式。這個函式就代表著一座山。我們的目標就是找到這個函式的最小值,也就是山底。根據之前的場景假設,最快的下山的方式就是找到當前位置最陡峭的方向,然後沿著此方向向下走,對應到函式中,就是找到給定點的梯度,然後朝著梯度相反的方向,就能讓函式值下降的最快!因為梯度的方向就是函式之變化最快的方向(在後面會詳細解釋)
所以,我們重複利用這個方法,反覆求取梯度,最後就能到達區域性的最小值,這就類似於我們下山的過程。而求取梯度就確定了最陡峭的方向,也就是場景中測量方向的手段。那麼為什麼梯度的方向就是最陡峭的方向呢?接下來,我們從微分開始講起:
1.2.1 微分
看待微分的意義,可以有不同的角度,最常用的兩種是:
- 函式影象中,某點的切線的斜率
- 函式的變化率
- 幾個微分的例子:
1.單變數的微分,函式只有一個變數時
2.多變數的微分,當函式有多個變數的時候,即分別對每個變數進行求微分
1.2.2 梯度
梯度實際上就是多變數微分的一般化。
下面這個例子:
我們可以看到,梯度就是分別對每個變數進行微分,然後用逗號分割開,梯度是用<>包括起來,說明梯度其實一個向量。
梯度是微積分中一個很重要的概念,之前提到過梯度的意義
- 在單變數的函式中,梯度其實就是函式的微分,代表著函式在某個給定點的切線的斜率
- 在多變數函式中,梯度是一個向量,向量有方向,梯度的方向就指出了函式在給定點的上升最快的方向
**這也就說明了為什麼我們需要千方百計的求取梯度!**我們需要到達山底,就需要在每一步觀測到此時最陡峭的地方,梯度就恰巧告訴了我們這個方向。梯度的方向是函式在給定點上升最快的方向,那麼梯度的反方向就是函式在給定點下降最快的方向,這正是我們所需要的。所以我們只要沿著梯度的方向一直走,就能走到區域性的最低點!
1.3 數學解釋
首先給出數學公式:
此公式的意義是:J是關於Θ的一個函式,我們當前所處的位置為Θ0點,要從這個點走到J的最小值點,也就是山底。首先我們先確定前進的方向,也就是梯度的反向,然後走一段距離的步長,也就是α,走完這個段步長,就到達了Θ1這個點!
1.3.1 α
α在梯度下降演算法中被稱作為學習率或者步長,意味著我們可以通過α來控制每一步走的距離,以保證不要步子跨的太大扯著蛋,哈哈,其實就是不要走太快,錯過了最低點。同時也要保證不要走的太慢,導致太陽下山了,還沒有走到山下。所以α的選擇在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的話,可能導致遲遲走不到最低點,太大的話,會導致錯過最低點!
1.3.2 梯度要乘以一個負號
梯度前加一個負號,就意味著朝著梯度相反的方向前進!我們在前文提到,梯度的方向實際就是函式在此點上升最快的方向!而我們需要朝著下降最快的方向走,自然就是負的梯度的方向,所以此處需要加上負號;那麼如果時上坡,也就是梯度上升演算法,當然就不需要新增負號了。
0x02 例項
我們已經基本瞭解了梯度下降演算法的計算過程,那麼我們就來看幾個梯度下降演算法的小例項,首先從單變數的函式開始,然後介紹多變數的函式。
2.1 單變數函式的梯度下降
我們假設有一個單變數的函式
函式的微分,直接求導就可以得到
初始化,也就是起點,起點可以隨意的設定,這裡設定為1
學習率也可以隨意的設定,這裡設定為0.4
根據梯度下降的計算公式
我們開始進行梯度下降的迭代計算過程:
如圖,經過四次的運算,也就是走了四步,基本就抵達了函式的最低點,也就是山底
2.2 多變數函式的梯度下降
我們假設有一個目標函式
現在要通過梯度下降法計算這個函式的最小值。我們通過觀察就能發現最小值其實就是 (0,0)點。但是接下來,我們會從梯度下降演算法開始一步步計算到這個最小值!
我們假設初始的起點為:
初始的學習率為:
函式的梯度為:
進行多次迭代:
我們發現,已經基本靠近函式的最小值點
0x03 程式碼實現
3.1 場景分析
下面我們將用python實現一個簡單的梯度下降演算法。場景是一個簡單的線性迴歸的例子:假設現在我們有一系列的點,如下圖所示:
我們將用梯度下降法來擬合出這條直線!
首先,我們需要定義一個代價函式,在此我們選用均方誤差代價函式(也稱平方誤差代價函式)
此公式中
- m是資料集中資料點的個數,也就是樣本數
- ½是一個常量,這樣是為了在求梯度的時候,二次方乘下來的2就和這裡的½抵消了,自然就沒有多餘的常數係數,方便後續的計算,同時對結果不會有影響
- y 是資料集中每個點的真實y座標的值,也就是類標籤
- h 是我們的預測函式(假設函式),根據每一個輸入x,根據Θ 計算得到預測的y值,即
我們可以根據代價函式看到,代價函式中的變數有兩個,所以是一個多變數的梯度下降問題,求解出代價函式的梯度,也就是分別對兩個變數進行微分
明確了代價函式和梯度,以及預測的函式形式。我們就可以開始編寫程式碼了。但在這之前,需要說明一點,就是為了方便程式碼的編寫,我們會將所有的公式都轉換為矩陣的形式,python中計算矩陣是非常方便的,同時代碼也會變得非常的簡潔。
為了轉換為矩陣的計算,我們觀察到預測函式的形式
我們有兩個變數,為了對這個公式進行矩陣化,我們可以給每一個點x增加一維,這一維的值固定為1,這一維將會乘到Θ0上。這樣就方便我們統一矩陣化的計算
然後我們將代價函式和梯度轉化為矩陣向量相乘的形式
3.2 程式碼
首先,我們需要定義資料集和學習率
#!/usr/bin/env python3 # -*- coding: utf-8 -*- from numpy import * # 資料集大小 即20個數據點 m = 20 # x的座標以及對應的矩陣 X0 = ones((m, 1)) # 生成一個m行1列的向量,也就是x0,全是1 X1 = arange(1, m+1).reshape(m, 1) # 生成一個m行1列的向量,也就是x1,從1到m X = hstack((X0, X1)) # 按照列堆疊形成陣列,其實就是樣本資料 # 對應的y座標 y = np.array([ 3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12, 11, 13, 13, 16, 17, 18, 17, 19, 21 ]).reshape(m, 1) # 學習率 alpha = 0.01
接下來我們以矩陣向量的形式定義代價函式和代價函式的梯度
# 定義代價函式 def cost_function(theta, X, Y): diff = dot(X, theta) - Y # dot() 陣列需要像矩陣那樣相乘,就需要用到dot() return (1/(2*m)) * dot(diff.transpose(), diff) # 定義代價函式對應的梯度函式 def gradient_function(theta, X, Y): diff = dot(X, theta) - Y return (1/m) * dot(X.transpose(), diff)
最後就是演算法的核心部分,梯度下降迭代計算
# 梯度下降迭代 def gradient_descent(X, Y, alpha): theta = array([1, 1]).reshape(2, 1) gradient = gradient_function(theta, X, Y) while not all(abs(gradient) <= 1e-5): theta = theta - alpha * gradient gradient = gradient_function(theta, X, Y) return theta optimal = gradient_descent(X, Y, alpha) print('optimal:', optimal) print('cost function:', cost_function(optimal, X, Y)[0][0])
當梯度小於1e-5時,說明已經進入了比較平滑的狀態,類似於山谷的狀態,這時候再繼續迭代效果也不大了,所以這個時候可以退出迴圈!
執行程式碼,計算得到的結果如下:
print('optimal:', optimal) # 結果 [[0.51583286][0.96992163]] print('cost function:', cost_function(optimal, X, Y)[0][0]) # 1.014962406233101
通過matplotlib畫出影象,
# 根據資料畫出對應的影象 def plot(X, Y, theta): import matplotlib.pyplot as plt ax = plt.subplot(111) # 這是我改的 ax.scatter(X, Y, s=30, c="red", marker="s") plt.xlabel("X") plt.ylabel("Y") x = arange(0, 21, 0.2) # x的範圍 y = theta[0] + theta[1]*x ax.plot(x, y) plt.show() plot(X1, Y, optimal)
所擬合出的直線如下
全部程式碼如下,大家有興趣的可以複製下來跑一下看一下結果:
#!/usr/bin/env python3 # -*- coding: utf-8 -*- from numpy import * # 資料集大小 即20個數據點 m = 20 # x的座標以及對應的矩陣 X0 = ones((m, 1)) # 生成一個m行1列的向量,也就是x0,全是1 X1 = arange(1, m+1).reshape(m, 1) # 生成一個m行1列的向量,也就是x1,從1到m X = hstack((X0, X1)) # 按照列堆疊形成陣列,其實就是樣本資料 # 對應的y座標 Y = array([ 3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12, 11, 13, 13, 16, 17, 18, 17, 19, 21 ]).reshape(m, 1) # 學習率 alpha = 0.01 # 定義代價函式 def cost_function(theta, X, Y): diff = dot(X, theta) - Y # dot() 陣列需要像矩陣那樣相乘,就需要用到dot() return (1/(2*m)) * dot(diff.transpose(), diff) # 定義代價函式對應的梯度函式 def gradient_function(theta, X, Y): diff = dot(X, theta) - Y return (1/m) * dot(X.transpose(), diff) # 梯度下降迭代 def gradient_descent(X, Y, alpha): theta = array([1, 1]).reshape(2, 1) gradient = gradient_function(theta, X, Y) while not all(abs(gradient) <= 1e-5): theta = theta - alpha * gradient gradient = gradient_function(theta, X, Y) return theta optimal = gradient_descent(X, Y, alpha) print('optimal:', optimal) print('cost function:', cost_function(optimal, X, Y)[0][0]) # 根據資料畫出對應的影象 def plot(X, Y, theta): import matplotlib.pyplot as plt ax = plt.subplot(111) # 這是我改的 ax.scatter(X, Y, s=30, c="red", marker="s") plt.xlabel("X") plt.ylabel("Y") x = arange(0, 21, 0.2) # x的範圍 y = theta[0] + theta[1]*x ax.plot(x, y) plt.show() plot(X1, Y, optimal)
0x04 總結
至此,就基本介紹完了梯度下降法的基本思想和演算法流程,並且用python實現了一個簡單的梯度下降演算法擬合直線的案例!
最後,我們回到文章開頭所提出的場景假設:
這個下山的人實際上就代表了反向傳播演算法,下山的路徑其實就代表著演算法中一直在尋找的引數Θ,山上當前點的最陡峭的方向實際上就是代價函式在這一點的梯度方向,場景中觀測最陡峭方向所用的工具就是微分。在下一次觀測之前的時間就是有我們演算法中的學習率α所定義的。
可以看到場景假設和梯度下降演算法很好的完成了對應!