從零開始機器學習002-梯度下降演算法

阿新 • • 發佈：2018-12-26

老師的課程
1.從零開始進行機器學習
 2.機器學習數學基礎(根據學生需求不斷更新)
3.機器學習Python基礎
 4.最適合程式設計師的方式學習TensorFlow

上節課講完線性迴歸的數學推導，我們這節課說下如何用機器學習的思想把最合適的權重引數求解出來呢？這裡就涉及到了最優化演算法，其中梯度下降就是最優化演算法中的一種。我們看下梯度下降是怎麼完成最優化求解的。

一、概念：

梯度下降演算法是一個最優化演算法，它是沿梯度下降的方向求解極小值。

二、前提條件：

目標函式
使用梯度下降演算法是要求有前提條件的。第一個就是目標函式，梯度下降是求最優解的演算法沒錯，但是你一定要告訴梯度下降，你要求哪個函式的解。萬物得有源頭。目標函式就是源頭。本節課的源頭就是
訓練集
這個目標函式是根據上節課推匯出來的最小二乘的公式。只不過1/2後面多了個m。m是總的資料量。意味著是求多個數據之後的平均值。
第二個是訓練集，有了目標函式，還得有資料支撐。只有有了大量的資料，機器才能夠真正的掌握規律。(下方為資料集樣本)

最終的目標是求得是這個目標函式最小(或區域性最小)的引數θ。

三、訓練步驟

這裡寫圖片描述

隨機生成一個初始點
圖片中紅圈上的點，從上面的圖可以看出：初始點不同，獲得的最小值也不同，因此梯度下降求得的只是區域性最小值；
確定學習率(Learning rate)
學習率可以理解為下山時每一步邁的大小。步子邁得太大有可能不收斂，步子邁的太小下山速度太慢。如下圖

上圖左邊黑色為損失函式的曲線，假設從左邊最高點開始，如果 learning rate 調整的剛剛好，比如紅色的線，就能順利找到最低點。如果 learning rate 調整的太小，比如藍色的線，就會走的太慢，雖然這種情況給足夠多的時間也可以找到最低點，實際情況可能會等不及出結果。如果 learning rate 調整的有點大，比如綠色的線，就會在上面震盪，走不下去，永遠無法到達最低點。還有可能非常大，比如黃色的線，直接就飛出去了，update引數的時候只會發現損失函式越更新越大。
工作經驗：先使用0.1試下，如果不收斂或者收斂慢，再試0.01、0.001。
還有一點，學習率並不一定全程不變，可以剛開始的時候大一些，後期的時候不斷調小。

輸入資料集，確定一個向下的方向，並更新θ。
資料集的輸入一般有三種。批量梯度下降、隨機梯度下降、小批量隨機梯度下降。
批量梯度下降：每調整一步，帶入所有的資料，
優點：所有資料都涉及到，訓練的結果應該是最精確的。
缺點：資料量非常大的時候，訓練速度奇慢無比。
隨機梯度下降：每次隨機獲取資料集裡面的一個值
優點：速度快
缺點：訓練結果可能不夠精確
小批量隨機梯度下降:前兩者的中間產物
速度相對較快，結果相對精確。
在google,TensorFlow中，訓練Mnist資料集的時候，採用的就是小批量隨機梯度下降。在平時工作，小批量隨機梯度下降也應用的最廣泛。
訓練終止
當損失函式達到預設值的一個值，或者收斂不明顯時，可以終止訓練。得到的值就是梯度下降優化演算法的最終值(極小值)。

四、其他

問：多個特徵值怎麼訓練？
答：並不是放在一起訓練，而是每個特徵自己訓練自己的。
如下圖：
這裡寫圖片描述

關注微信公眾號：北國課堂

這裡寫圖片描述

老師的課程
1.從零開始進行機器學習
 2.機器學習數學基礎(根據學生需求不斷更新)
3.機器學習Python基礎
 4.最適合程式設計師的方式學習TensorFlow

文章部分圖片及內容借鑑：
http://blog.csdn.net/zyq522376829/article/details/66632699#t3
http://blog.csdn.net/xiazdong/article/details/7950084

從零開始機器學習002-梯度下降演算法

老師的課程 1.從零開始進行機器學習 2.機器學習數學基礎(根據學生需求不斷更新) 3.機器學習Python基礎 4.最適合程式設計師的方式學習TensorFlow 上節課講完線性迴歸的數學推導，我們這節課說下如何用機器學習的思想把最合適的權重引數求解出來呢？這

從零開始機器學習003-邏輯迴歸演算法

老師的課程 1.從零開始進行機器學習 2.機器學習數學基礎(根據學生需求不斷更新) 3.機器學習Python基礎 4.最適合程式設計師的方式學習TensorFlow 問：邏輯迴歸是解決迴歸的問題嗎？答：不是，邏輯迴歸解決的是分類問題。一、邏輯迴歸概念

從零開始機器學習比賽經驗（bird分享）

競爭力 aca 新的 ast 成績 ats span boosting https 視頻地址：https://pan.baidu.com/s/1b25yNG 機器學習比賽入門條件 1.過的去的code能力：Leetcode平臺 leetcode平臺可以幫助我們提高基本的算法

從零開始機器學習001-線性迴歸數學推導

機器學習中迴歸是同學們在學習過程中重要的一環。無論是面試還是實際應用都會經常用到。很多人都會使用線性迴歸，那麼有多少人知道線性迴歸是怎麼來的呢？如果想讓自己在機器學習的方向上更有價值，數學方面的推導必不可少。今天就給大家講解下回歸中比較重要的線性迴歸的數學推導。老師的課程

從零開始機器學習-12 特徵組合

本文由沈慶陽所有,轉載請與作者取得聯絡! 前言在我們進行機器學習模型訓練的過程中，使用單一特徵似乎並不能很好的解決我們的問題。比如，單純地依靠房屋面積來預測房屋單價是不可取的。因為，地理位置、人均房間數等都是會對房屋單價產生影響的特徵。如果需要

從零開始機器學習-7 訓練集和測試集

本文由沈慶陽所有,轉載請與作者取得聯絡! 在繼續下去之前，我們需要提一下泛化。泛化和過擬合泛化（Generalization），指的是模型可以很好地擬合新的資料（以前不曾出現過的）。針對某些問題，我們可以僅僅使用一條直線來分類。雖然有一些資料可

從零開始機器學習-19 RNN：迴圈神經網路

本文由沈慶陽所有,轉載請與作者取得聯絡! 前言相比於適合單個物件的卷積網路（Convolutional Neural Network，CNN），迴圈網路（Recurrent Neural Network，RNN）更加適合序列型別的資料。迴圈網路應用

機器學習之--梯度下降演算法

貌似機器學習最繞不過去的演算法，是梯度下降演算法。這裡專門捋一下。 1. 什麼是梯度有知乎大神已經解釋的很不錯，這裡轉載並稍作修改，加上自己的看法。先給出連結，畢竟轉載要說明出處嘛。為什麼梯度反方向是函式值區域性下降最快的方向？因為高等數學都忘光了，先從導數/偏倒數/方向

有關機器學習的梯度下降演算法

梯度下降演算法是一個一階最優化演算法，通常也稱為最速下降演算法。要使用梯度下降演算法尋找區域性最小值，必須向函式上當前點對應梯度的反方向進行迭代搜尋。相反地向函式正方向迭代搜尋，則會接近函式的區域性最大值，這個過程被稱為梯度上升法。梯度下降演算法基於以下的觀

機器學習之梯度下降演算法Gradient Descent

梯度下降演算法: 機器學習實現關鍵在於對引數的磨合，其中最關鍵的兩個數：代價函式J(θ)，代價函式對θ的求導∂J/∂θj。如果知道這兩個數，就能對引數進行磨合了：其中 α 為每步調整的幅度。其中代價函式公式J(θ)：代價函式對θ的求導∂J/∂θj：

【機器學習】梯度下降演算法分析與簡述

梯度下降演算法分析與簡述梯度下降(gradient descent)是一種最優化演算法，基於爬山法的搜尋策略，其原理簡單易懂，廣泛應用於機器學習和各種神經網路模型中。在吳恩達的神經網路課程中，梯度下降演算法是最先拿來教學的基礎演算法。梯度下降演算法的

【機器學習】梯度下降演算法及梯度優化演算法

用於評估機器學習模型的就是損失函式，我們訓練的目的基本上都是最小化損失，這個最小化的方式就要用優化演算法了，機器學習中最常用的就是梯度下降演算法。導數、方向導數和梯度要了解梯度下降演算法是什麼首要知道梯度是什麼，導數和方向導數又是瞭解梯度的前提。

機器學習之梯度下降法

梯度學習模型最快參數 nbsp 函數 bsp 每一個在吳恩達的機器學習課程中，講了一個模型，如何求得一個參數令錯誤函數值的最小，這裏運用梯度下降法來求得參數。首先任意選取一個θ 令這個θ變化，怎麽變化呢，怎麽讓函數值變化的快，變化的小怎麽變化，那麽函數值怎麽才能

《逐夢旅程：Windows遊戲編程之從零開始》學習筆記之二：GDI框架

register 開發操作程序 turn use 繪制 cal 完整 1 //===========================================【程序說明】=================================== 2 //

從Python開始機器學習

海量並不會很好如何使用 dex 你是平臺好的 monkey 目前機器學習紅遍全球。男女老少都在學機器學習模型，分類器，神經網絡和吳恩達。你也想成為一份子，但你該如何開始？在這篇文章中我們會講Python的重要特征和它適用於機器學習的原因，介紹一些重要的機器學習

機器學習：梯度下降gradient descent

視屏地址：https://www.bilibili.com/video/av10590361/?p=6 引數優化方法：梯度下降法 learning rate learning rate : 選擇rate大小 1、自動調learning ra

機器學習筆記——梯度下降（Gradient Descent）

梯度下降演算法（Gradient Descent）在所有的機器學習演算法中，並不是每一個演算法都能像之前的線性迴歸演算法一樣直接通過數學推導就可以得到一個具體的計算公式，而再更多的時候我們是通過基於搜尋的方式來求得最優解的，這也是梯度下降法所存在的意義。不是一個機器學習演

從零開始——網際網路學習路線(上）

學習路線分上中下三篇，本文是第一篇。其他兩篇這兩天會陸續釋出。歡迎大家關注訂閱。有建議歡迎評論區留言~。下面的所有的學習資料博主都已經分類整理好了，資料是博主以及身邊同學學習時使用的資料，公眾號後臺回覆“資料”即可獲取整理好的資料。本文主要分為三個部分：如

吳恩達機器學習筆記——梯度下降法

1：假設函式的引數更新要做到同時更新，即先將求得的引數放在統一的temp中，然後同時賦值給對應的引數w0，w1,w2,w3..... 2：特徵縮放和收斂速度問題倘若，特徵向量中一些特徵值相差太大，就會導致代價函式特徵引數的函式曲線很密集，以至於需要多次迭代才能達到最小值。學習率：決定

【機器學習】梯度下降法詳解

一、導數導數就是曲線的斜率，是曲線變化快慢的一個反應。二階導數是斜率變化的反應，表現曲線的凹凸性 y

從零開始機器學習002-梯度下降演算法

一、概念：

二、前提條件：

三、訓練步驟

四、其他

關注微信公眾號：北國課堂

相關推薦