吳恩達（Andrew Ng）《機器學習》課程筆記（2）第2周——多變數線性迴歸

阿新 • • 發佈：2019-02-18

目錄

四、多變數線性迴歸（Linear Regression with multiple variables）

4.1. 多維特徵（Multiple features）

前面介紹的是單變數線性迴歸如下圖所示：

現在介紹多變數線性迴歸，有多個輸入變數x，一個輸出變數y。

例如，下圖所示的房屋尺寸，數量等構成多個特徵。

增加新的特徵後，要引入新的註釋：

n代表特徵向量的數量；

在矩陣中代表第i行。例如：

在矩陣中表示第i行第j個特徵；例如

知道了上面後，多變數假設h表示為：

為了簡化公式，引入，則公式轉化為：

其中，x，θ分別表示為：

4.2. 多變數梯度下降（Gradient descent for multiple variables）

與單變數線性迴歸類似，在多變數線性迴歸中，我們也構建一個代價函式（cost function）。

我們的目標和單變數線性迴歸問題一樣，要找出使得代價函式最小的引數。

多變數線性迴歸的批量梯度下降演算法為：

求導可得出：

n=1，單變數（一維特徵）

n>=1，多變數（多維特徵）

最開始隨機選擇一系列的引數值，計算所有的預測結果，再給所有的引數一個新的值，不斷迭代迴圈，直到收斂為止。

4.3. 梯度下降法實踐1——特徵縮放(Feature Scaling)(歸一化)

多維特徵，我們要保證這些特徵具有相近的尺度，這樣使得梯度下降演算法收斂更快。

以房價問題為例，假設兩個特徵，房屋的尺寸和房屋的數量，尺寸的值在0-2000，而房間數量的範圍在0-5，很顯然，兩個特徵的差距很大。以兩個引數分別為橫縱座標，繪製代價函式的等高線圖，影象看起來很扁，這樣，在梯度下降演算法中，需要迭代迴圈很多次才能收斂，這樣時間會大大增加。

特徵之間差距很大這將使得演算法迭代次數變多，圖中紅色代表收斂的次數。

所以，解決的方式，是將所有特徵儘量縮放到一個區間範圍內。如（-1,1）之間。

如下圖所示，為一種縮放方法，使得特徵縮放到（0,1）區間內。這樣等高線圖變得圓一些。收斂次數將減少。

特徵縮放區別選擇，有很多（-1,1），（0,1），（0,3）……,但區間範圍不能太大或太小。這樣也會影響收斂次數。

例如：均值歸一化，使得特徵縮放到（-0.5,0.5）區間內;

均值歸一化公式如下：

有了特徵縮放，在梯度下降法中，收斂次數將大大減少，速度將變得更快。

4.4. 梯度下降法實踐2——學習率(Learning rate)

不同的資料，在梯度下降法收斂所需要的迭代次數將不同，當然，迭代次數我們不可預知。我們大概繪製出迭代次數和代價函式的趨勢圖來觀測演算法在什麼時候收斂。

梯度下降法的每次迭代次數受學習率α影響。正如前面一節所說，如果學習率α過小，則收斂所需的迭代次數會很高；如果學習率α過大，則每次地帶可能不會使代價函式減少，可能會超過區域性最小值區間，導致無法收斂。

4.5. 特徵和多項式迴歸(Features and polynomial regression)

以房屋價格為例，如上圖所示：

其中，=frontage(臨街寬度)，=depth(深度)，= frontage × depth =area (房屋面積)，

房屋價格問題轉化為：

使得，房屋價格從多元變數線性問題轉化為單變數線性問題，這樣可以簡化演算法的複雜度。其實，並不是線性問題適合所有的資料。有時候，我們需要曲線（多項式）來解決問題。

例如，下圖是房屋價格的資料，如果用直線，去擬合，當然可以。但是用多項式模型，模型預測的資料將會更接近。

如下圖，對於上圖的資料，如果用二次方模型，最後趨勢（藍色線）將呈現下降趨勢，很顯然這不符合客觀規律，因為房屋價格會隨著房屋大小增大而增大，整體應呈現上升趨勢。若用，三次方模型，則趨勢（綠色線）呈現上升趨勢，並且資料擬合的較好。所以，對於這個資料，用三次方模型更合適。

一般情況，拿到資料，通常我們需要將先觀察的資料，再決定用什麼模型。另外我麼可以令：

從而將模型轉化為線性迴歸模型。

根據函式特性，可以使：

或者使用下面的模型：

值得注意的是：採用多項式迴歸模型，在執行梯度下降演算法前，多維特徵必須要進行特徵縮放（歸一化），使每個特徵放到一個區間範圍內。

4.6. 正規方程(Normal equation)

目前為止，我們僅僅學習梯度下降法，但對某些線性迴歸問題，正規方程法求解會更好，下面將介紹正規方程法解決線性迴歸問題。

如上圖所示，梯度下降法將不斷迭代，直到收斂；正規方程與此不同，正規方程將一次就可以找到最優解。下面給出利用正規方程求解得到最小引數θ ：

下面舉個例子進行說明：

如上面的表格所示，房屋的四維特徵對應最後的房屋價格。利用正規方程的解以此為求出：

由公式可得出：

最後，使得代價函式最小的最優解可以一次得到，相比於梯度下降法簡單得多。在Octave或Matlab程式中，一句話就可以解決：

Octave/Matlab: pinv(X’*X)*X’*y

注：對於不可逆矩陣，正規方程不可以用。

下面將梯度下降法和正規方程法進行比較：

總之，只要特徵變數數目不太大（小於1萬），通常使用正規方程法，而不是用梯度下降法。

後面，我們要學習分類演算法，如邏輯迴歸演算法，並不能使用正規方程法，對於複雜的學習演算法，我們將不得不使用梯度下降法求解。因此梯度下降法可以在大量多維特徵變數的線性迴歸問題。

五、Octave 教程

Octave最初是模彷Matlab而設計，語法基本上與Matlab一致，嚴謹編寫的程式碼應同時可在Matlab及Octave執行，但也有很多細節上差別。一些軟體開發小組也使用兩者相容的語法，直接開發可以同時在Matlab和Octave使用的程式。所以直接用Matlab就行了，我自己安裝的是Matlab R2017b版本。

Matlab 一些基本操作可以看我的部落格，比較簡單，容易上手。

其他的操作比較簡單，下面的內容直接省略。需要的可以查閱書籍：《MATLAB R2016a完全自學一本通》

5.1. 基本操作(Basic Operations)

5.2. 移動資料(Moving Data Around)

5.3. 計算資料(Computing on Data)

5.4. 繪圖資料(Plotting Data)

5.5. 控制語句：for，while，if語句(Control Statements_ for, while, if statements)

5.6. 向量化(Vectorization)

參考資料

[1] Andrew Ng Coursera 機器學習第二週 PPT

Coursera吳恩達《卷積神經網路》課程筆記（1）-- 卷積神經網路基礎

《Convolutional Neural Networks》是Andrw Ng深度學習專項課程中的第四門課。這門課主要介紹卷積神經網路（CNN）的基本概念、模型和具體應用。該門課共有4周課時，所以我將分成4次筆記來總結，這是第一節筆記。 1. Compu

Coursera吳恩達《優化深度神經網路》課程筆記（1）-- 深度學習的實用層面

Andrew Ng的深度學習專項課程的第一門課《Neural Networks and Deep Learning》的5份筆記我已經整理完畢。迷路的小夥伴請見如下連結：在接下來的幾次筆記中，我們將對第二門課《Improving Dee

Coursera吳恩達《優化深度神經網路》課程筆記（3）-- 超引數除錯、Batch正則化和程式設計框架

上節課我們主要介紹了深度神經網路的優化演算法。包括對原始資料集進行分割，使用mini-batch gradient descent。然後介紹了指數加權平均（Exponentially weighted averages）的概念以及偏移校正（bias corr

吳恩達（Andrew Ng）《機器學習》課程筆記（2）第2周——多變數線性迴歸

目錄四、多變數線性迴歸（Linear Regression with multiple variables） 4.1. 多維特徵（Multiple features）前面介紹的是單變數線性迴歸如下圖所示：

Andrew Ng機器學習課程筆記（四）之神經網絡

sca 優化介紹 www 之間 output 現在利用 href Andrew Ng機器學習課程筆記（四）之神經網絡版權聲明：本文為博主原創文章，轉載請指明轉載地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Preface Jensen’s Inequality（Jensen不等式） Expectation-Maximization Algorithm（EM演算法） Jensen’s Inequality 對於凸函式令f(x)f(x)為

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

Andrew NG機器學習課程筆記（十）

特徵選擇嚴格上來說也是模型選擇的一種。這裡不去辨析他們的關係，重點說明問題。假設我們想對維度為n的樣本進行迴歸，然後，n可能大多以至於遠遠大於訓練樣例數。但是我們感覺很多特徵對於結果是無用的，想剔除n中的無用特徵。n個特徵就有2^n種情況。如果我們去列舉這些情況，然後利用交叉驗證去選，太麻煩了。因此需要一些啟

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

Andrew NG機器學習課程筆記（六）

支援向量機學習方法包括構建由簡至繁的模型：線性可分支援向量機，線性支援向量機，以及非線性支援向量機。簡單模型是複雜模型的基礎，也是複雜模型的特殊情況。當訓練資料線性可分時，通過硬間隔最大化，學習一個線性的分類器，即線性支援向量機，又稱為硬間隔支援向量機。當訓練集近似線性可分時，通過軟間隔最大化，也學習一個線性

機器學習課程筆記（2）

分類問題（接1） logistic迴歸中的代價函式：對於原來的迴歸方程， J（θ）=1/m∑1/2（hθ（x）-y）2 與線性迴歸相同，所不同的是線性迴歸中hθ（x）為f（x），logistics中hθ（x）為sigmoid-f（x）我們先設cost（h

Coursera吳恩達《卷積神經網路》課程筆記(1)卷積神經網路

計算機視覺計算機視覺問題圖片分類目標檢測畫風遷移在大圖片上的深度學習如果採用傳統的全連線層，可能會導致引數巨大，導致無法進行計算。卷積神經網路由此產生

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

機器學習筆記（參考吳恩達機器學習視訊筆記）04_多變數線性迴歸

4 多變數線性迴歸 4.1 多維特徵代表特徵矩陣中第i行的第j個特徵，也就是第i個訓練例項的第j個特徵。支援多變數的假設函式h表示為：，其中，引入。此時模型中的引數是一個n+1維的向量，特徵矩陣X的維度是m*(n+1)。因此公式可以簡化為：。 4.2 多變數梯度下降在多

吳恩達（AndrewNG）機器學習課程學習小技巧

前言因為現在是機器學習的熱潮，之前也是看過一部分的資料，比如李航的《統計學習方法》也拜讀過，但真正系統的學習還真的是沒有。也想趁著最近一段比較能自由支配的時間好好學習一段時間。現在學習了一段時間，先把這些記錄小技巧記錄下來吧。視訊課程視訊的話大家有很多渠道

Coursera吳恩達機器學習教程筆記（一）

人工智慧行業如火如荼，想要入門人工智慧，吳恩達老師的機器學習課程絕對是不二之選（當然，這不是我說的，是廣大網友共同認為的）教程的地址連結：有的同學可能進不去這個網站，解決辦法參照如下連結：這個辦法本人親測有效，因為我看的時候也打不開（囧！！）

第二週（多變數線性迴歸 +Matlab使用）-【機器學習-Coursera Machine Learning-吳恩達】

目錄：多變數線性迴歸（模型、梯度下降技巧）特徵選擇和多項式迴歸正規方程 Matlab學習1 多變數線性迴歸1）模型- 假設函式：- 引數：全部的 theta- 代價函式：和單變量回歸一樣- 梯度下降：2）梯度下降演算法的實用技巧 - 特徵縮

Elam的吳恩達深度學習課程筆記（一）

記憶力是真的差，看過的東西要是一直不用的話就會馬上忘記,於是乎有了寫部落格把學過的東西儲存下來，大概就是所謂的集鞏固，分享，後期查閱與一身的思想吧，下面開始正題深度學習概論什麼是神經網路什麼是神經網路呢，我們就以房價預測為例子來描述一個最簡單的神經網路模型。　　假設有6間

吳恩達《神經網路與深度學習》課程筆記歸納（二）-- 神經網路基礎之邏輯迴歸

上節課我們主要對深度學習（Deep Learning）的概念做了簡要的概述。我們先從房價預測的例子出發，建立了標準的神經網路（Neural Network）模型結構。然後從監督式學習入手，介紹了Standard NN，CNN和RNN三種不同的神經網路模型。接著介紹了兩種不

吳恩達《神經網路與深度學習》課程筆記歸納（三）-- 神經網路基礎之Python與向量化

上節課我們主要介紹了邏輯迴歸，以輸出概率的形式來處理二分類問題。我們介紹了邏輯迴歸的Cost function表示式，並使用梯度下降演算法來計算最小化Cost function時對應的引數w和b。通過計算圖的方式來講述了神經網路的正向傳播和反向傳播兩個過程。本節課我們將來