梯度下降法的簡單理解(含示例)
梯度下降法的原理和公式這裡不講,就是一個直觀的、易於理解的簡單例子。
1.最簡單的情況,樣本只有一個變數,即簡單的(x,y)。多變數的則可為使用體重或身高判斷男女(這是假設,並不嚴謹),則變數有兩個,一個是體重,一個是身高,則可表示為(x1,x2,y),即一個目標值有兩個屬性。
2.單個變數的情況最簡單的就是,函式hk(x)=k*x這條直線(注意:這裡k也是變化的,我們的目的就是求一個最優的 k)。而深度學習中,我們是不知道函式的,也就是不知道上述的k。 這裡討論單變數的情況:
在不知道k的情況下,我們是通過樣本(x1,y1),(x2,y2),(xn,yn)來獲取k。獲取的k的好壞則有損失函式來衡量。
損失函式:就是你預測的值和真實值的差異大小(比如一個樣本(1,1)他的真實值是1,而你預測的是0.5,則差異 比較大,如果你預測值為0.9999,則差異就比較小了)。
損失函式為定義如下(此處為單變數的情況)
目的是求使損失函式最小的變數k(注意和變數x區分),則將損失函式對k求導(多變數時為求偏導得梯度,這裡單變數求導,其實不算梯度),求偏導如下:
然後迭代,迭代時有個步長alpha,(深度學習中貌似叫學習率)
3.例子
假如我們得到樣本(1,1),(2,2),(3,3).其實,由這三個樣本可以得到函式為y = 1*x。此時損失函式為0.而機器是不知道的,所以我們需要訓練。
下面是一段python程式碼。
import numpy as np import matplotlib.pyplot as plt x=np.arange(-5, 5, 0.001) y=(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0) plt.plot(x,y) #plt.show() #顯示圖形 def sum(x): return ((x*1-1)*1+(x*2-2)*2+(x*3-3)*3) def fun(x): return ((1/3.0)*sum(x)) old = 0 new = 5 step = 0.01 pre = 0.00000001 def src_fun(x): print(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0) while abs(new-old)>pre: old = new #src_fun(old) #輸出每次迭代的損失值 new = new - step*fun(old) print(new) print(src_fun(new))
下圖是損失函式的影象,損失函式中變數是k。下圖橫座標為k的不同取值,縱軸為對應的損失大小。由下圖可以大致看出,當k為1時,損失函式值為0。注意:這裡取的最優值k=1是在我們已有樣本的情況下得出的,樣本不同,k值自然不同。
下面是print(new)和print(src_fun(new))的輸出結果