梯度下降方法的收斂率是O(1/t)。

本文首先介紹梯度下降演算法的定義，之後解釋收斂性的意義，並給出梯度下降演算法收斂性詳細證明過程1。

梯度下降演算法

設系統引數為x。對於樣本i，其代價函式為fi(x)。在n個樣本組成的訓練集上，其整體代價函式為：

f(x)=∑i=1nfi(x)

要求ω使得上式最小，由於沒有閉式解，需要通過近似迭代逐步逼近。

梯度下降(Gradient Descent)以η為學習率，在每次迭代中用一階泰勒展開近似：

xt+1=xt−η∇f(x)

設x的維度為D，代價函式f是個標量，梯度∇f(x)也是一個D維向量。

序列的收斂性

基礎定義

有序列{xt}，如果序號t趨於無窮時，滿足以下條件：

limt→∞xt+1−x∗xt−x∗=μ
則稱該方法收斂到x∗，收斂率為μ, μ∈(0,1)。也稱為以μ收斂到x∗。

例：數列1,1/2,1/4,1/8...收斂到L=0，收斂率為1/2。

擴充套件定義

還有一些序列也會隨著序號趨於某個定值，但是收斂的速率隨著下標發生變化。這裡引入一個擴充套件的收斂率定義。
如果存在序列{ϵt}，根據基礎收斂率定義，以收斂率μ收斂到0。
則如果序列{xt}滿足：

|xt−x∗|<ϵt
稱該方法收斂到x∗，收斂率為ϵt。

例：數列{1,1,1/4,1/4,1/16,1/16…}收斂到L=

0，收斂率為ϵt=12t−1={2,1,1/2,1/4,1/8,1/16…}。

梯度下降的收斂性

當我們說“梯度下降的收斂性為1/t”時，我們指的是：

當t趨於無窮時，代價函式f(xt)收斂到最優解f(x∗)，收斂率為ϵt=O(1/t)。

引理

這部分為收斂性證明做準備，步驟較曲折，請關注大流程。

Lipschitz連續

如果標量函式f(x)滿足如下條件，稱其滿足Lipschitz連續性條件。

|f(x1)−f(x2)|≤L||x1−x2||
其中||x||表示向量的模長，L稱為Lipschitz常數。對於固定的f，L是一個定值。
這個條件對函式值的變化做出了限制。

β

平滑

進一步，如果函式f(x)的梯度滿足值為β的Lipschitz連續，稱函式f(x)為β平滑：

||∇f(x)−∇f(y)||2≤β||x−y||2

其中||x||2=xTx。這個條件對函式梯度的變化進行了約束：梯度之差的模長，不會超過自變數之差模長的常數倍。

相關推薦

【優化】梯度下降收斂性證明

梯度下降方法的收斂率是O(1/t)。本文首先介紹梯度下降演算法的定義，之後解釋收斂性的意義，並給出梯度下降演算法收斂性詳細證明過程1。梯度下降演算法設系統引數為x。對於樣本i，其代價函式為fi(x)。在n個樣本組成的訓練集上，其整體代價函

【數學】梯度下降，牛頓法與擬牛頓法

梯度下降將f(x)f(x)一階泰勒展開： f(x)=f(x0)+(x−x0)f′(x0)f(x)=f(x0)+(x−x0)f′(x0) f(x)=f(x0)+Δxf′(x0)f(x)=f(x0)+Δxf′(x0) 如果當前處於x0x0節點，要使得前進同樣的

從最初的感動開始--數值計算【1】--梯度下降與牛頓法

直觀來說,牛頓法因為使用了二階導資訊,比單純的一階導數的梯度下降法,其發現極值點回收斂得更快。我個人的理解，梯度下降考慮了函式值下降最快的方向（梯度方向）。而在有些情況下，按這樣的規則改變自變數取值，可能會走彎路。其根本原因在於，梯度下降法，能夠保證函式值在改點處的變化

【轉載】梯度下降演算法的引數更新公式

NN這塊的公式，前饋網路是矩陣乘法。損失函式的定義也是一定的。但是如何更新引數看了不少描述，下面的敘述比較易懂的： 1、在吳恩達的CS229的講義的第四頁直接給出引數迭代公式在UFLDL中反向傳導演算法一節也是直接給出的公式 2、例子：第一

【Mark Schmidt課件】機器學習與資料探勘——數值優化與梯度下降

本課件主要包括以下內容：優化簡介上次課程回顧：線性迴歸大規模最小二乘尋找區域性最小值的梯度下降法二維梯度下降存在奇異點的最小二乘魯棒迴歸基於L1-範數的迴歸 L1-範數的平滑近似

【機器學習三】梯度下降法K-means優化演算法

K-means演算法延伸對於之前的一篇文章中說過K-means雖然效果可以，但是對給定的K值敏感，簇中心位置敏感以及計算量大。所以針對以上兩點有了一些優化的方法。對於給定的K值偏大或者偏小都將影響聚類效果。而由於對於需要聚類的資料本身沒有一個y值即分類值，這正是需要演算法最後得出的。所以

【機器學習】梯度下降演算法及梯度優化演算法

用於評估機器學習模型的就是損失函式，我們訓練的目的基本上都是最小化損失，這個最小化的方式就要用優化演算法了，機器學習中最常用的就是梯度下降演算法。導數、方向導數和梯度要了解梯度下降演算法是什麼首要知道梯度是什麼，導數和方向導數又是瞭解梯度的前提。

【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)

1.梯度下降演算法梯度下降演算法的核心思路和公式推導，可以詳見前面的文章：梯度下降演算法的核心思路和公式推導如果代價函式是凸函式，用梯度下降演算法一定可以求得最優解。2.梯度下降的三種方式在ML中，梯度下降有三種方式：1）批量梯度下降(Batch Gradient Desc

【機器學習】梯度下降法詳解

一、導數導數就是曲線的斜率，是曲線變化快慢的一個反應。二階導數是斜率變化的反應，表現曲線的凹凸性 y

【Ian Goodfellow課件】梯度下降與神經網路代價函式的結構

本課件主要內容包括：導數與二階導數方向曲率泰勒級數近似臨界點牛頓法牛頓法失效的情況為何不會收斂？鞍點或區域性極小值更常見嗎？為何優化過程如此之慢？二維子空間視覺化

【機器學習二】梯度下降法KMeans

KMeans聚類的思想: 給定一個有M個物件的資料集，構建一個具有k個簇的模型，其中k<=M。滿足以下條件： • 每個簇至少包含一個物件 • 每個物件屬於且僅屬於一個簇 • 將滿足上述條件的k個簇成為一個合理的聚類劃分 • 基本思想：對於給定的類別數目k，首先給定初始劃分，通過迭代改

【機器學習】梯度下降演算法分析與簡述

梯度下降演算法分析與簡述梯度下降(gradient descent)是一種最優化演算法，基於爬山法的搜尋策略，其原理簡單易懂，廣泛應用於機器學習和各種神經網路模型中。在吳恩達的神經網路課程中，梯度下降演算法是最先拿來教學的基礎演算法。梯度下降演算法的

【機器學習】梯度下降 II

# Gradient Descent 梯度下降 II 關於 Gradient Descent 的直觀解釋，參考上一篇部落格[【機器學習】梯度下降 I](https://www.cnblogs.com/xuruihan/p/13487979.htmlfalse) 本模組介紹幾種梯度下降模型。定義符號標記如下

【jmeter】一個簡單的性能測試

虛擬機次數長連接目的存在一秒 through pos 服務 1.測試目標網站http://www.jianshu.com/ 2.測試目的是該網站15QPS負載下的響應時間執行測試之前，要先建立一個測試計劃，而jmeter每次打開後，都會生成一個空的

【轉載】Apache Spark Jobs 性能調優（二）

放棄 instance bar 並行處理 defaults 執行 .exe nag 原則調試資源分配 Spark 的用戶郵件郵件列表中經常會出現 “我有一個500個節點的集群，為什麽但是我的應用一次只有兩個 task 在執行”，鑒於 Spark 控制資源使用的參數的數

【轉載】Apache Spark Jobs 性能調優（一）

功能 dso brush 數據結構 nsf 必須 char dal 開始當你開始編寫 Apache Spark 代碼或者瀏覽公開的 API 的時候，你會遇到各種各樣術語，比如 transformation，action，RDD 等等。了解到這些是編寫 Spark 代碼

【轉】JAVA 並發性和多線程 -- 讀感 (二線程間通訊，共享內存的機制)

instance bar log 通信 java t 是的復制代碼 ott bus 原文地址：https://www.cnblogs.com/edenpans/p/6020113.html 參考文章：http://ifeve.com/java-concurrenc

【坑】介面等冪性實施策略

專案剛開始的時候，只關注於功能行開發，但是當功能開發完畢的時候，就會暴露很多問題出來，比如今天要講的介面等冪性。今天會針對實際的應用場景和大家詳情的介紹一下，介面是如何實現等冪性。場景應用積分兌換（呼叫第三方介面）供應商入駐（表單重複提交）供應商結算申請/運營平

優化演算法——梯度下降法實現

批量梯度下降演算法實現 import numpy as np # 設定資料集的行數和維數 r = 20 c = 10 # 生成資料集合label x = np.random.randint(0, 10, r * c).reshape(r, c) # 20行，10列 x = n

EM演算法推導及其收斂性證明

EM演算法簡介 EM演算法是一種迭代演算法，用於含有隱變數的概率模型引數的極大似然估計，或極大後驗概率估計。EM演算法的每次迭代分為兩步：E步，求期望；M步，求極大。概率模型有時既含有觀測變數，又含有隱變數或潛在變數，如果概率模型的變數都是觀測變數，那麼給定資料，可以直接用極大似然

【優化】梯度下降 收斂性 證明