吳恩達機器學習視訊筆記——梯度下降簡化技巧

阿新 • • 發佈：2018-11-09

房價預測

多個因素作用下，即θ有多個的情況下，如何得到假設函式。

第二行的訓練樣本，用矩陣進行表示如下：

同樣，假設函式在4個變數的情況下，其表示方法為：

有n個因素作用的情況下（即預設X0 = 1）：

如上所示，多輸入變數的假設函式可以由兩個矩陣相乘表示，一個矩陣表示變數，另外一個矩陣表示假設函式的係數

表示式基本不變，但為了區別輸入變數，即x是一個還是多個，我們規定x的上座標表示第幾個變數，下座標為1時代表計算的輸入變數即x的個數為1，同時，相應的，微分方程也有了一定程度的更新：（如下圖所示）

圈出的部分為作者求出的偏導數的表示式

特徵縮放：

房價預測案例

當兩個輸入變數的值之間相差太大時：

在不考慮θ的情況下，代價函式如上圖所示，即是一個伸長的橢圓，寬度遠小於其長度，在這種情況下進行梯度下降演算法，路徑如上圖所示，即來回振盪，這樣的情況下，所耗費的時間就比較長。因此，通過適當的對輸入變數進行縮放，就能極大的增加其效率。

如上圖所示，將兩個變數進行一定程度的縮放後，其更容易得到我們想要的結果。

最佳輸入變數的取值範圍為[-1,1]因此，進行特徵縮放的時候，大概在接近[-1,1]的方向進行，取值範圍太小或太大都不太恰當。

如上圖所示，儘量讓取值範圍的平均值接近於0，同時可以注意到一點就是得到的結果裡面X2取值範圍的精確值並不為[0.5,0.5],不過適當的增刪無傷大雅。

梯度下降過程中的實用性技巧

①如何選擇學習率（α）

橫座標：迭代步數

縱座標：代價值

每走一步，代價值都會降低，為了保證達到最低代價值（不要越過它），恰當的學習率是十分必要的。

當代價值隨著每一步增加，則說明學習率需要進行適當的減小

當發生如上情況，步數和代價值的變化規律如下圖，說明你的學習率太多了，建議適當減小學習率（同時檢查程式碼是否有bug）

同時，學習率不能過小，太小的學習率梯度下降會非常非常非常的緩慢。

建議學習率選擇如下：

0.0000001，……,0.01,0.03,0.1,0.3,1,3……

變數簡化：

如圖所示，有兩個變數佔有土地的寬度和深度，我們可以選擇不使用這兩個變數，而是創造一個名為面積的變數，這樣就只有一個變數，在我們的假設函式當中。

在這個圖中，為了考慮多種迴歸模型，我們可以將x2 = x1² x3 = x1³（注意輸入變數的取值範圍,即縮放特徵），但需要注意的滿足上述條件的後期隨著面積的增加價格會下降，顯然現實生活中並不存在這樣的好事，因此可以考慮平方項，至於到底應該選擇哪種表示式，後續會進行相關的學習。

化簡代價函式：

將輸入變數和輸出變數分別變為一個矩陣：

故Xθ = Y就可以通過矩陣的運算求出θ。化簡可得如下內容：

如何選擇標準方程和梯度下降方法？

梯度下降方法：

缺點：選擇學習效率的值並且大概率需要進行多次調整，同時需要多次迭代，可能會降低效率

優點：在上百萬種輸出變數存在時，仍然能夠很好地進行工作

標準方程方法：

優點：不需要選擇學習效率並且不需要進行迭代

缺點：在輸出變數較大時，計算速度會特別的慢【O(n³)】

如果輸入變數有上萬就可以選擇梯度下降方法進行計算

Matlab求矩陣的逆：

Pinv() 偽逆:當進行求逆的矩陣是不可逆的時候仍然能夠求出它的逆

inv() 逆

吳恩達機器學習視訊筆記——梯度下降簡化技巧

房價預測多個因素作用下，即θ有多個的情況下，如何得到假設函式。第二行的訓練樣本，用矩陣進行表示如下：同樣，假設函式在4個變數的情況下，其表示方法為：有n個因素作用的情況下（即預設X0 = 1）：

吳恩達機器學習視訊筆記03——矩陣和向量

注：非常基礎的內容，學過線性代數的童鞋可以跳過矩陣介紹：左邊是一個4×2的矩陣，右邊是一個2×3的矩陣 A是一個四行而列的矩陣 A11=1402(表示第一行第一列) A12=191(第一行第二列)

吳恩達機器學習視訊筆記——簡單知識背景

1、生活的機器學習：電腦區分垃圾郵件淘寶的智慧推薦照相時候的美顏什麼是人工智慧： Arthur Samuel(1959):部分特定程式碼賦予計算機自動學習的能力。世界上第一個機器學習的程式：Samuel編寫的西洋棋程式 &n

機器學習筆記（參考吳恩達機器學習視訊筆記）16_決策樹

16 決策樹決策樹是一種監督學習演算法，以樹狀圖為基礎，其輸出結果為一系列簡單實用的規則。它就是一系列的if-then語句，既可以用於分類問題，也可以用於迴歸問題。構建決策樹之通常包括三個步驟： 1）特徵選擇 &n

機器學習筆記（參考吳恩達機器學習視訊筆記）15_推薦系統

15 推薦系統一個電影提供商，有5部電影和4個使用者。要求使用者為電影打分：前三部為愛情片，後兩部為動作片。Alice、Bob更傾向於愛情片，Carol、Dave更傾向於動作片。沒有一個使用者給所有的電影打過分。希望構建一個演算法來預測他們每個人可能會給他們每個人可能會給他們沒

機器學習筆記（參考吳恩達機器學習視訊筆記）14_異常檢測

14 異常檢測異常檢測（Anomaly detection）是機器學習演算法的一個常見應用。這種演算法的一個有趣之處在於：它雖然主要用於非監督學習問題，但從某些角度看，它又類似於一些監督學習問題。異常檢測主要用來識別欺騙。例如線上採集而來的有關使用者的資料，一個特徵向量中可能會包含如

機器學習筆記（參考吳恩達機器學習視訊筆記）13_降維

13 降維 13.1 動機一：資料壓縮假設兩個未知的特徵：是用釐米表示長度；是用英寸表示同一物體的長度。這是一種高度冗餘的表示。希望將這個二維的資料降至一維，即資料壓縮。 13.2 動機二：資料視覺化化降維可以使資料視覺化。關於許多不同國家的資料，每一個特徵向量都有50

機器學習筆記（參考吳恩達機器學習視訊筆記）12_聚類

12 聚類監督學習中，訓練集帶有標籤，目標是找到能夠區分正負樣本的決策邊界，需要根據標籤擬合一個假設函式。非監督學習中，需要將無標籤的訓練資料輸入到一個演算法，此演算法可以找到這些資料的內在結構。一個能夠根據資料的內在結構，將它們分成幾個不同的點集（或簇）的演算法，就被稱為聚類演算法。聚類

機器學習筆記（參考吳恩達機器學習視訊筆記）11_支援向量機

11 支援向量機 11.1 支援向量機的優化目標從邏輯迴歸開始展示我們如何一點一點修改來得到本質上的支援向量機。如圖，一個y=1的樣本，希望趨近於1，意味著當趨近於1時，應當遠大於0。一個y=0的樣本，希望趨近於0，意味著當趨近於0時，應當遠小於0。

機器學習筆記（參考吳恩達機器學習視訊筆記）10_機器學習系統的設計

10 機器學習系統的設計 10.1 構建學習演算法的方法以一個垃圾郵件分類器演算法為例。先要做的決定是如何選擇並表達特徵向量x, 可以選擇一個由 100 個最常出現在垃圾郵件中的詞所構成的列表，根據這些詞是否有在郵件中出現，來獲得我們的特徵向量（出現為 1，不出現為 0），尺寸為 10

機器學習筆記（參考吳恩達機器學習視訊筆記）09_應用機器學習的建議

9 應用機器學習的建議機器學習診斷法：是一種測試方法，通過執行這種測試，可以深入瞭解某種演算法到底是否有用。 9.1 評估假設函式通過評估假設函式來，來避免過擬合和欠擬合問題。模型通過訓練集得出引數後，對測試集運用該模型，有兩種方式計算誤差：對於線性迴歸模型，利用測

機器學習筆記（參考吳恩達機器學習視訊筆記）08_神經網路的學習

8 神經網路的學習 8.1 神經網路的代價函式神經網路的訓練樣本有m個，每個包含一組輸入x和一組輸出訊號y，L表示神經網路層數，表示每層的neuron個數（表示輸出層神經元個數），代表最後一層中處理單元的個數。將神經網路的分類定義為兩種情況：二類分類和多類分類。二類分類：=

機器學習筆記（參考吳恩達機器學習視訊筆記）07_神經網路介紹

7 神經網路介紹當特徵太多時，無論是線性迴歸還是邏輯迴歸模型計算的負荷會非常大。這時需要神經網路。神經網路是一種很古老的演算法，它最初產生的目的是製造能模擬大腦的機器。神經網路是計算量有些偏大的演算法。然而大概由於近些年計算機的執行速度變快，才足以真正執行起大規模的神經網路。類似於神

機器學習筆記（參考吳恩達機器學習視訊筆記）06_正則化

6 正則化 6.1 過擬合問題通過學習得到的假設可能能夠非常好地適應訓練集（代價函式可能幾乎為 0），但是可能會不能推廣到新的資料。如何處理過擬合問題： 1）丟棄一些不能幫助我們正確預測的特徵。可以是手工選擇保留哪些特徵，或者使用一些模型選擇的演算法來幫忙（例如 PCA）。 2

機器學習筆記（參考吳恩達機器學習視訊筆記）04_多變數線性迴歸

4 多變數線性迴歸 4.1 多維特徵代表特徵矩陣中第i行的第j個特徵，也就是第i個訓練例項的第j個特徵。支援多變數的假設函式h表示為：，其中，引入。此時模型中的引數是一個n+1維的向量，特徵矩陣X的維度是m*(n+1)。因此公式可以簡化為：。 4.2 多變數梯度下降在多

機器學習筆記（參考吳恩達機器學習視訊筆記）17_貝葉斯分類器

17 貝葉斯分類器貝葉斯分類是一種分類演算法的總稱，這種演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。貝葉斯分類器的分類原理是通過某物件的先驗概率，利用貝葉斯公式計算出其後驗概率，即該物件屬於某一類的概率，選擇具有最大後驗概率的類作為該物件所屬的類。 17.1 貝葉斯

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

吳恩達機器學習課程筆記章節二單變數線性迴歸

1、模型描述 Univariate（One variable）Linear Regression m=訓練樣本的數目，x's=輸入的變數/特徵，y's=輸出變數/目標變數 2、代價函式基本定義： 3、代價函式（一）回顧一下，前面一些定義：簡化的假設函式，theta0=0，得到假

吳恩達機器學習視訊輸出

機器學習的演算法分為監督學習supervised learning和無監督學習unsuoervised learning （監督學習）suoervised learning :有標籤的資料集，及我們認定了什麼是什麼，什麼是良性的什麼是惡性的迴歸regessio

吳恩達機器學習個人筆記(七)-聚類

聚類屬於無監督學習。在之前的學習中，都是監督學習。監督學習與無監督學習的最大區別為訓練資料集的特點，在監督學習中，訓練集是有標籤的，我們根據這些有標籤的資料，訓練出模型，輸出相應的值。而在無監督學習中，我們的資料集沒有標籤，我們需要使用機器學習演算法尋找出資