【優化】梯度下降 收斂性 證明
阿新 • • 發佈:2019-02-11
梯度下降方法的收斂率是
O(1/t) 。
本文首先介紹梯度下降演算法的定義,之後解釋收斂性的意義,並給出梯度下降演算法收斂性詳細證明過程1。
梯度下降演算法
設系統引數為
要求
梯度下降(Gradient Descent)以
設
序列的收斂性
基礎定義
有序列
則稱該方法收斂到
例:數列
1,1/2,1/4,1/8... 收斂到L=0 ,收斂率為1/2 。
擴充套件定義
還有一些序列也會隨著序號趨於某個定值,但是收斂的速率隨著下標發生變化。這裡引入一個擴充套件的收斂率定義。
如果存在序列
則如果序列
稱該方法收斂到
例:數列{1,1,1/4,1/4,1/16,1/16…}收斂到
L= ,收斂率為0ϵt=12t−1 ={2,1,1/2,1/4,1/8,1/16…}。
梯度下降的收斂性
當我們說“梯度下降的收斂性為
當
t 趨於無窮時,代價函式f(xt) 收斂到最優解f(x∗) ,收斂率為ϵt=O(1/t) 。
引理
這部分為收斂性證明做準備,步驟較曲折,請關注大流程。
Lipschitz連續
如果標量函式
其中
這個條件對函式值的變化做出了限制。
β 平滑
進一步,如果函式
||∇f(x)−∇f(y)||2≤β||x−y||2
其中