吳恩達機器學習學習筆記第五章：多變數線性迴歸

阿新 • • 發佈：2019-01-27

1.Multiple features多特徵

現在我們有多個特徵了，比如還是預測房子價格X不僅僅是面積大小還有臥室數量，樓層數量以及房子的年齡

表達形式的記法：

n=4即有4個特徵（總面積臥室數量樓層數房子年齡）

m=47即有47個樣本（47個房子）

x^(i)表示第i（i不是次方而是對應訓練集的索引）條樣本對的特徵如x^(2)就是粉色的這樣表示他就是一個四維向量

x^(i)j表示：如i=2 j=3就是紅圈

這裡的記號最好能很快反應過來不然程式設計的時候會比較費時

再來看看線性迴歸的假設函式

Eg是對這個圖Andrew老師把θ舉了個特值的例子：

（Eg是把引數θ取特值的例子）

（一個房子的基本價格是8千，每平方米0.1（百美元），……,-2x4即隨年度使用價錢貶值）

當然特徵個數為n時就如下了：

我們和單變數的做法一樣令他θ0的係數x^(i)0全部=1

所以現在X和θ都是一個n+1維向量（黃圈）

那麼假設函式就可以寫成內積了（紅圈）

2.多元梯度下降法：

假設函式、引數、代價函式書寫如下：

然後執行梯度下降

左邊是之前學的單變數右邊是多變數其實本質是一樣的

因為我仍然是線性迴歸我沒有什麼二次項係數這種奇奇怪怪的東西，都是一次的所以θ1~θn求導結果的構造上都是一樣的

3.多元梯度下降法的特徵縮放：

如果你不同特徵之間的取值範圍差距很大如面積是0~2000 而寢室數量是1~5

我們畫出來代價函式的等值線就會變成這種又長又扁的橢圓這會極大的降低我們做梯度下降的速度並且可能會導致來回波動的情況

針對這種情況我們就要做特徵縮放：

方法一是用特徵值除以範圍的最大值

這樣做以後等值線就沒有那麼偏移了看起來更圓了

特徵範圍的設定沒有具體的要求，但是像-100~100、-0.0001~0.0001這種顯然就沒有-3~3、-2~0.5這種好

方法二叫：均值歸一化（Mean normalization）

用X減去均值（μ）除以極差（max-min）

方法三：X減去均值除以標準差(就像標準正態分佈一樣) （正態分佈忘了的可以去找概率論、統計學的書看看）

4.多元梯度下降法的學習率：

如果學習率過大，J(θ)可能越來越大甚至不收斂，如果過小，J(θ)的迭代速率會很慢。

這些都是學習率過大的情況（影象的X軸是迭代次數 Y軸是J(θ)的值）

一般認定如果J(θ)迭代中下降到小於某一個值，例如10的負3次方，我們就說他收斂，不需要再進行繼續迭代了，但是這個下界不是那麼好選

如果我們的梯度下降沒有正常工作那麼檢查學習率併合理的修正學習率（用嘗試法：若小了就……0.001→0.01→0.1…… 若發現0.01小了而0.1大了就試試0.03……）

5.特徵和多項式迴歸

除了1階的這種線性迴歸我們還可以弄出2次方、3次方這樣的多項式迴歸

比如有寬度又有長度這兩個那我們想把長度乘寬度=面積作為特徵去擬合我們的資料

對多項式迴歸歸一化就非常重要了

6.正規方程

它是一種區別於迭代法用來求θ的直接解法，可以說只需要一步就能求出θ的最優值

對於這種θ是常數的例子直接求導令導數為0就能得到最優解

而下面的θ是n+1維向量，J（θ）是這個向量的函式

如果我對所有θj一個一個的做偏微分那就太蠢了

在樣本中加一列θ0=1 並寫出所有特徵向量Xi對應的矩陣再把y寫出向量

X是一個m*(n+1)維矩陣 X也稱為設計矩陣（design matrix）即把每一個訓練樣本

進行轉置後放到每一行

y是一個m維向量 (m是訓練樣本數量 n是特徵變數個數)

設就能得到使得代價函式最小化的θ

舉個具體的例子：

我的除了外只有一個特徵變數，

這樣的就寫出了這樣的設計矩陣：

上面比較混亂。我們用筆再寫寫書寫表示方法

以及θ=XXXX那個公式線上性代數的證明（書寫較差盡情原諒）

梯度下降法與正規方程法的優缺點對比：

梯度下降法的缺點：

(1)需要選擇學習率a 也就意味著你需要執行多次去找哪個學習率是使執行效果最好的

(2)需要很多次迭代(運算速度就慢了)

梯度下降法的優點：

(1)不管特徵數量是幾千量級還是幾百萬量級，梯度下降法都能很好的工作

(2)除了線性迴歸(Linear Regreesion)外，其他複雜的演算法

正規方程法的優點：

(1)不需要自己找學習率a

(2)不需要迭代

(3)由於不需要找a不需要迭代所以就不需要畫J（θ）的曲線去檢查收斂性了

(4)不需要進行特徵縮放(我的特徵變數x1是0~1 ，x2是-10000~10000這種都無所謂)

正規方程法的缺點：

(1)正規方程法一般用線上性迴歸上，不適用或者不能用在後續課程中講到的更復雜演算法

(2)當特徵變數太多時會導致運算速度很慢：

正規方程法的計算成本的時間複雜度是O（n^3）

因為是一個n*n的矩陣（假設有n個特徵變數）而計算一個逆矩陣的複雜度是以矩陣維度的3次方增長的，就算一個很好的計算方法也是隻能做到接近n的3次方。這意味著當特徵很多的時候所需要耗費的時間代價就很大了一般來說n不大於10000計算機都可以勝任正規方程法但是再往上走就會考慮梯度下降法了

7.正規方程在矩陣不可逆時的解決方法：

首先第一個出現不可逆的原因一般是X裡至少存在一組線性相關的特徵變數比如X1是平方米X2是英尺 1平米=3.28英尺

第二個原因是你有很多特徵具體的說就算m小於或等於n時，譬如說m=10 n=100 θ就算一個101維的向量你要從10個訓練樣本中找到101個引數值，一般來說很難成功

當出現這種m小於n的情況我們考慮能否刪除一些特徵或者使用一種叫正則化（後面章節會講）的方法

在數值計算這門課中

Python中有numpy.linalg的線性代數庫直接計算這種”偽逆”即：即使矩陣不可逆也能計算出他的逆:

inv(A) 計算方陣A的逆

pinv(A) 計算矩陣A的Moore-Penrose偽逆

吳恩達機器學習學習筆記第五章：多變數線性迴歸

1.Multiple features多特徵現在我們有多個特徵了，比如還是預測房子價格X不僅僅是面積大小還有臥室數量，樓層數量以及房子的年齡表達形式的記法： n=4即有4個特徵（總面積臥室數量樓層數房子年齡） m=47即有47個樣本（47個房子）

【吳恩達機器學習筆記】第五章：多變數線性迴歸

目錄多特徵下的目標函式多元梯度下降法多元梯度下降法中的方法特徵縮放選擇學習率特徵和多項式迴歸正規方程（區別於迭代法的直接解法）正規方程在矩陣不可逆的情況下的解決方法

【機器學習吳恩達】CS229課程筆記notes1翻譯-Part II分類和logistic迴歸

CS229 課程筆記吳恩達 Part II 分類和logistic迴歸我們現在談論分類問題。分類問題與迴歸問題類似，區別是在分類問題中，我們現在想要預測的y值只取少量的離散值。現在，我們聚焦於二值分類問題，y只取兩個值，0和1。（我們在這裡說的大多數

《機器學習實戰》筆記--第五章：Logistic迴歸

知識點1：python strip()函式和Split函式的用法總結原文程式碼：def loadDataSet(): dataMat = [] labelMat = [] fr = open('testSet.txt') for line in

[斯坦福大學2014機器學習教程筆記]第五章-計算資料

在這節中，我們將學習如何對資料進行運算操作。接下來，我們將會使用這些運算操作來實現我們的學習演算法。我現在快速地初始化一些變數。比如設定A為一個3x2的矩陣，B為一個3x2的矩陣，c為一個2x2的矩陣。

[斯坦福大學2014機器學習教程筆記]第五章-向量

在這節中，我們將學習有關向量化的內容。無論你是用Ocatve，還是別的語言，比如MATLAB或者你正在用Python、NumPy 或Java、C、C++，所有這些語言都具有內建的，容易閱讀和獲取的各種線性代數庫，它們通常寫得很好，已經經過高度優化，通常是數值計算方面的博士

《機器學習實戰》第五章：Logistic迴歸（1）基本概念和簡單例項

最近感覺時間越來越寶貴，越來越不夠用。不過還是抽空看了點書，然後整理到部落格來。加快點節奏，廢話少說。 Keep calm & carry on. ----------------------------------------------------------

《Spring實戰》學習筆記-第五章：構建Spring web應用

之前一直在看《Spring實戰》第三版，看到第五章時發現很多東西已經過時被廢棄了，於是現在開始讀《Spring實戰》第四版了，章節安排與之前不同了，裡面應用的應該是最新的技術。本章中，將會接觸到Spring MVC基礎，以及如何編寫控制器來處理web請求，如何通明地繫

Coursera-AndrewNg(吳恩達)機器學習筆記——第三周

訓練 ros 方便 font 就是梯度下降全局最優用法郵件一.邏輯回歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類：通常表示為y?{0,1}，0：“Negat

機器學習 | 吳恩達機器學習第四周學習筆記

課程視訊連結第四周課件下載密碼:kx0q 上一篇部落格主要介紹了第三週的課程的內容，主要講解分類問題，引入了邏輯迴歸模型來解決分類問題，並詳細的介紹了邏輯迴歸模型的細節，包括假設函式，代價函式，優化求解方法包括之前學習的梯度下降法和更高

機器學習 | 吳恩達機器學習第六週學習筆記

課程視訊連結第六週PPT 下載密碼:zgkq 本週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。目錄一、應用機器學習建議 1.決定下一步做什麼 2.評估假設函式 3.模型選擇和訓練、驗

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

機器學習 | 吳恩達機器學習第七週學習筆記

課程視訊連結第七週PPT 下載密碼:tmss 上週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。本週主要講解支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。 &nbs

機器學習 | 吳恩達機器學習第三週學習筆記

第三週PPT彙總下載連結:https://pan.baidu.com/s/101uY5KV_2i3Ey516DYma_A 密碼:8o4e 上一篇部落格主要介紹了第二週的課程的內容，包括多變數線性迴歸，使用梯度下降法求解多變數線性迴歸的實用技巧，特徵縮放與模型特徵選擇並

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第5周神經網路續

Neural Networks:Learning 上週的課程學習了神經網路正向傳播演算法，這周的課程主要在於神經網路的反向更新過程。 1.1 Cost function 我們先回憶一下邏輯迴歸的價值函式 J(θ)=1m[∑mi=1y(i)log(hθ

Coursera-吳恩達-機器學習-（第5周筆記）Neural Networks——Learning

Week 5 —— Neural Networks : Learning 目錄一代價函式和反向傳播 1-1 代價函式首先定義一些我們需要使用的變數： L =網路中的總層數 sl =第l層中的單位數量（不

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第1,2周

Linear’regression 發現這個教程是最入門的一個教程了，老師講的很好，也很通俗，每堂課後面還有程式設計作業，全程用matlab程式設計，只需要填寫核心程式碼，很適合自學。 1.1 Model representation 起始給出了

吳恩達機器學習筆記_第五週

神經網路——模型學習 Cost Function:從邏輯迴歸推廣過來計算最小值，無論用什麼方法，都需要計算代價和偏導。網路結構的前向傳播和可向量化的特點： BP演算法：總結：

吳恩達機器學習筆記第三部分未完成且暫時不打算完成

Linear regression and logistic regression,when u apply them ,sometimes cause the overfitting.Another term for this is that thisalgorithm h

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第6周有關機器學習的小建議

1.1 Deciding what to try next 當你除錯你的學習演算法時，當面對測試集你的演算法效果不佳時，你會怎麼做呢？獲得更多的訓練樣本？嘗試更少的特徵？嘗試獲取附加的特徵？嘗試增加多項式的特徵？嘗試增加λ? 嘗試減小λ?

吳恩達機器學習學習筆記第五章：多變數線性迴歸

1.Multiple features多特徵

2.多元梯度下降法：

3.多元梯度下降法的特徵縮放：

4.多元梯度下降法的學習率：

5.特徵和多項式迴歸

6.正規方程

7.正規方程在矩陣不可逆時的解決方法：

相關推薦