迴歸專題-1-線性迴歸基礎

阿新 • • 發佈：2018-11-19

Title: 迴歸專題-1 | 線線性迴歸基礎

導讀

① 線性迴歸（又稱線性模型），通過一個或者多個預測變數（X）來預測定量結局變數（Y）^[1]。
② 目標是建立一個數學公式，將y定義為x變數的函式。統計模型一旦建立，就可以通過對新加入的變數進行預測。
③ 迴歸模型的建立，需要評估估計模型的效能。也就是說，需要知道通過迴歸模型預測新加入的變數的準確性如何，準確性越高，說明該模型的構建是成功的。

評價模型預測效能的兩個常用度量值：

均方根誤差（Root Mean Square Error, RMSE），用來表示模型預測的誤差。也就是觀察值與模型預測的估計值之間的差異是多少，計算公式為：

RMSE值越小，模型越好
R的平方（也可以稱為決定係數），表示的是觀察值和預測值之間的相關係數的平方，R²值越大，模型越好

簡單線性迴歸的學習流程

圖二模型構建步驟

公式

線性迴歸的數學公式如下：
圖三線性迴歸方程

如果有多個預測變數的話，公式則可以寫成 y= b0 + b1*x1 + b2*x2 + ... + bn*xn:
- b0 是截距
- b1,b2,…,bn是迴歸權重或者說是與變數x1,x2,…xn相關的迴歸係數
- e就是誤差（也稱為殘差），y中能被迴歸模型解釋的那一部分方差
下面這幅圖很直觀的說明了簡單迴歸模型的特點
- 藍色線使得模型擬合最好
- 截距和斜率（迴歸權重）用綠色表示
- 殘差表示的是每個點到擬合直線的垂直距離

可以看到，並不是每個點都落在迴歸線上，有在迴歸線上面或者下面的，總之，剩餘殘差的平均值接近於0。剩餘殘差的平方和稱為殘差平方和（Residual Sum of Squares, RSS）。擬合迴歸線周圍的點的平均方差叫做剩餘標準誤（Residual Standard Error, RSE）,也用於評價擬合迴歸模型的總體質量，該值越小說明迴歸線擬合的越好

因為平均誤差可以認為是等於0，所以結局變數可以近似表示為：
y ~ b0 + b1*x
一般來講，b0和b1一般取RSS為最小值的時候的值。也即是最小二乘法

的原理,或者叫普通最小二乘

一旦b0和b1確定下來，那麼就立馬執行對迴歸係數的t-檢驗，即迴歸係數是否顯著大於或小於0。非零的迴歸係數說明預測變數與結局變數顯著相關。

載入R包

這裡用到兩個R語言包

tidyverse用於資料處理和圖形展示
caret用於機器學習流程

library(tidyverse)
library(caret)
theme_set(theme_bw())

資料準備

這裡用到一個現存的資料集marketing，通過三大廣告媒體所花費的金額來預測其銷售額
隨後我們將資料集隨機分為訓練集（80%的資料用於構建一個迴歸模型）和測試集（20%的資料用來評估模型的效能）。為了獲得可重複的結果，需設定種子

# Load the data，載入資料
data("marketing", package = "datarium")
# Inspect the data，隨機檢視資料
sample_n(marketing, 3)

圖五資料概略

# Split the data into training and test set，拆分資料
set.seed(123) # 設定種子以獲得可重複結果
training.samples <- marketing$sales %>%
  createDataPartition(p = 0.8, list = FALSE)
train.data  <- marketing[training.samples, ]
test.data <- marketing[-training.samples, ]

計算線性迴歸

R語言裡的lm()函式用於計算線性迴歸模型

快速構建線性迴歸模型

# Build the model
model <- lm(sales ~., data = train.data) # 用訓練集資料構建模型
# Summarize the model
summary(model)
# Make predictions #
predictions <- model %>% predict(test.data) # 用測試集資料預測模型的準確性
# Model performance # 通過上述兩個指標來說明模型的綜合性能
# (a) Prediction error, RMSE
RMSE(predictions, test.data$sales)
# (b) R-square
R2(predictions, test.data$sales)

簡單線性迴歸

簡單線性迴歸用於單個預測變數來預測連續的結局變數，這裡先用youtube這個變數來構建簡單線性迴歸模型

model <- lm(sales ~ youtube, data = train.data)
summary(model)$coef

結果如下：
結果解釋：

結果顯示了迴歸係數的估計值（也就是Estimate那一列）以及他們的顯著性水平（Pr|t|那一列）。可以看到截距b0為8.38，youtube的迴歸係數為0.046
如此，迴歸方程就可以表示為：scales = 8.38 + 0.046*youtube，通過這個等式，那麼就可以預測新加入的youtube變數

多重線性迴歸

多重線性迴歸是簡單線性迴歸的拓展，不同的地方就是預測變數可以是多個
比如本例中的三個預測變數與結局變數的關係則可以寫成：y = b0 + b1x1 + b2x2 + b3*x3
這裡的迴歸係數代表每個預測變數與結局變數的相關。bj表示固定其他預測變數後，xj每增加一個單位，y變化的平均效應

model <- lm(sales ~ youtube + facebook + newspaper, 
            data = train.data)
summary(model)$coef

值得注意的是，當預測變數較多時，迴歸方程可以簡寫為y ~ .，這樣就是包括全部的變數，如下所示

model <- lm(sales ~., data = train.data)
summary(model)$coef

結果如下
結果解釋：

如上結果所示，迴歸係數表展示了beta迴歸西施估計值以及顯著性p值

估計值（Estimate）：截距b0,以及其它與預測變數相關的beta迴歸係數估計值
迴歸係數標準誤（Std.Error）：迴歸係數估計值的標準誤，表示迴歸係數的準確性。標準誤越大，迴歸係數的可信度越小
t統計量（t value）：即t-統計量，是用迴歸估計值除以迴歸係數標準誤得到的比值
P值（Pr(>|t|)）：對應於t-統計量的P值，P值越小，估計值越有意義
如果有不顯著的預測變數，比如這裡的newspaper，說明當固定其它兩個變數之後，newspaper的變化不會顯著的影響結局變數，也就是銷售額。

模型的準確性診斷

一旦模型被確定下來，至少有一個預測變數與結局變數顯著相關，接下里就應該對模型擬合數據的程度進行診斷。這個過程也叫擬合優度（goodness-of-fit），線性迴歸擬合的質量可以用下面三個統計量來表示：

剩餘標準誤

R平方值，決定係數（R²）以及校正的R²

F-統計量

剩餘標準誤
RSE在前面已經描述過，RSE越小證明模型擬合的越好。另外一個就是將RSE除以結局變數的平均值可以得到另外一個度量值——估計錯誤率（prediction error rate）
R²和adjust R²
R²的取值範圍在(0,1)，它的含義表示結局變數的變化可以被預測變數解釋的比例。在簡單線性迴歸中，R²就是結局變數和預測變數之間的皮爾遜相關係數的平方。而在多重線性迴歸中，R²則表示結局變數和預測變數之間的相關係數。R²值越大，說明模型越好。這裡引入一個adjust R²的概念，因為在多種線性迴歸中，有時候增加變數而使R²值升高是虛假的，所以R²的提高要考慮模型中新增的預測變數的個數
F-統計量
F-統計量給出了模型的總體意義，評估的是模型中是否至少有一個不為0的迴歸係數，在簡單線性迴歸中，F-統計量就是重複了t檢驗的結果。而在多元線性迴歸中則顯得非常重要，F-統計量越大，往往對應著顯著性的p值

預測

通過測試資料集對模型的效能進行簡單的評估，主要過程如下：

對新加入的預測變數進行結局變數的預測

通過計算RMSE的值和R²值來評估模型的效能

# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
# (a) Compute the prediction error, RMSE
RMSE(predictions, test.data$sales)

RMSE結果為： ## [1] 1.58

# (b) Compute R-square
R2(predictions, test.data$sales)

R²值為： ## [1] 0.938

上面的結果可知，R²的值是0.93，說明觀察值和預測值之間的相關性非常高，說明線性迴歸擬合度很好。估計誤差值RMSE為1.58，則錯誤率為1.58/mean(test.data$scales)=1.58/17=9.2%，這個結果說明模型擬合的比較好

討論

這篇文章主要對線性迴歸的基礎進行了描述，並且通過例項演示如何去構建一個線性迴歸模型以及通過什麼指標去衡量模型的效能，但是需要注意的是：

線性迴歸是基於預測變數和結局變數之間是一種線性關係的假設，這可以通過簡單的散點圖作圖看出，比如下面的方法就畫了youtube因變數和響應變數之間的散點圖

ggplot(marketing, aes(x = youtube, y = sales)) +
  geom_point() +
  stat_smooth()

圖八線性散點圖

參考

[1] James et al. 2014,P. Bruce and Bruce (2017)
[2] http://www.sthda.com/english/articles/40-regression-analysis/165-linear-regression-essentials-in-r/
注：如果我們對文章理解有偏差，非常歡迎大家向我們反饋，我們會認真閱讀並修改，另外有願意加入我們的小團隊的老師和同學可傳送郵件至我們的郵箱：<[email protected]> 祝大家科研順利，生活開心！
想要了解更多內容請訪問我們深度基因網站地址：<http://deepgener.wordpress.com/>

迴歸專題-1-線性迴歸基礎

Title: 迴歸專題-1 | 線線性迴歸基礎導讀 ① 線性迴歸（又稱線性模型），通過一個或者多個預測變數（X）來預測定量結局變數（Y）[1]。 ② 目標是建立一個數學公式，將y定義為x變數的函式。統計模型一旦建立，就可以通過對新加入的變數進行預測。 ③ 迴歸模型的建立，需要

資料學習(1)·線性迴歸和Logistic迴歸

本系列是作者上課時記錄的筆記整理，同時有對應的作業習題,自學的同學參考部落格同步即可。郵箱聯絡[email protected] Preview：監督學習（第一部分）線性迴歸 Logistic迴歸 Softmax迴歸

TensorFlow HOWTO 1.1 線性迴歸

1.1 線性迴歸線性迴歸是你能用 TF 搭出來的最簡單的模型。操作步驟匯入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.

1. 線性迴歸梳理

迴歸在數學上來說是給定一個點集，就能夠用一條曲線去擬合之。如果這個曲線是一條直線（超平面），那就被稱為線性迴歸。若不是一條直線則稱為非線性迴歸，常見有多項式迴歸、邏輯迴歸等。線性模型優劣：優點：結果易於理解，計算上不復雜；缺點：對非線性的資料擬合不好 1

機器學習--線性迴歸1（一元線性迴歸、多元線性迴歸，誤差性質）

前面幾節都是監督學習方面的演算法，監督學習是指有目標變數或預測目標的機器學習方法，迴歸與分類的不同，就在於其目標變數是連續數值型，而分類的目標變數是標稱型資料，其實前面的Logistic迴歸就是迴歸的一種，他們的處理方法大同小異，在這裡系統的講解一下回歸的來龍去脈，理解影響迴

機器學習1——線性迴歸

一、參考二、線性迴歸基本表示： x:特徵/輸入變數/自變數 y:目標變數/觀測值 h(x):假設/模型/函式對於特徵x，xi表示該特徵的第i個樣本輸入，xj表示在多特徵迴歸中的第j個特徵，xij表示第j個特徵的第i個樣本輸入。i<=m（樣本

Tensorflow擼程式碼之1線性迴歸

線性迴歸參考：地址 # _*_ encoding=utf8 _*_ import tensorflow as tf import numpy as np import matplotlib.pyplot as plt # 初始化 learn_rate =

Ng深度學習筆記 1-線性迴歸、監督學習、成本函式、梯度下降

他講了監督學習的兩類問題，分類和迴歸，並引入了兩個例子。一個講用現有的房屋面積和房價的資料集推算任意房子的價格（可認為是連續的），然後再引入其他模型引數，比如臥室個數等。另一個講用腫瘤的大小來推斷是否為良性或惡性腫瘤，如果引入其他引數，比如腫瘤細胞大小的一致

1.線性迴歸的推導--梯度下降法

1.線上性迴歸問題中，我們通常使用下面公式來擬合訓練集：其中,為特徵向量的個數； 2.如圖假設x是二維的，則有 3.我們可以將損失函式表示為： 4. 我們將目標函式轉成求損失函的最小值，該問題已經轉換成了最小二乘問題，因此我們可以使用梯度下降法對求最

深度學習1-線性迴歸，邏輯迴歸

這些天在寫前幾個月學習的三維重建方面的知識的同時，也開始學習著目前比較火的深度學習。學習這個不是跟著潮流，總是在想讀研到底學到了什麼。我想也就是個自學能力吧。其實感覺自己反而有點不自信了，本科畢業什麼都不擔心，可是現在擔心的越來越多，人也慢慢變得浮躁起來，嗨，不多說了，寫

機器學習各個演算法---1.線性迴歸

1.最原始的linear regression 標準迴歸函式和文字資料匯入函式 from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited f

python機器學習及實踐第二章的2.1.2.1線性迴歸器程式報錯Reshape your data either using array.reshap(-1,1)的原因及解決方法

最近在看Python機器學習及實踐（從零開始kaggle競賽之路）這本書，到了第二章的線性迴歸器的GradientBoostingRegressor模型照著敲程式碼的時候出現了以下的錯誤出錯的問題在於標準化函式這裡。可見fit_tran

Machine Learning 1-線性迴歸演算法分析

AI人工智慧時代，機器學習，深度學習作為其核心，本文主要介紹機器學習的基礎演算法，以詳細線介紹線性迴歸演算法及其數學原理探究，做到知其然知其所以然，打好理論基礎。目錄機器學習及人工智慧機器學習分類有監督學習無監督學習線性迴歸演

初學ML筆記N0.1——線性迴歸，分類與邏輯斯蒂迴歸，通用線性模型

1.線性迴歸線性迴歸，即假設使用一個線性的模型方程，來擬合特徵與結果，如下向量形式： x1，x2為輸入特徵。在上式中，theta則為每個特徵所對應的權重值，上式隱含了一個條件，即我們假設還有x0這個特徵，其值全部為1。定義cost

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

一.Multivariate Linear regression(多元線性迴歸) 現在起將開始介紹一種新的更為有效的線性迴歸形式。這種形式適用於多個變數或者多特徵量的情況。在之前學習過的線性迴歸中

7.線性迴歸之多元線性迴歸

概念：當自變數有多個時，迴歸模型就變成了：多元迴歸方程變為：估計多元迴歸方程變為：估計方法：多元迴歸的求解比簡單線性迴歸複雜但是思路是相同的，運用最小二乘法進行相應的求解，這裡不再進行展開。 python實現的小例子：問題：如故一

6.線性迴歸之簡單線性迴歸

起步線性迴歸是利用數理統計和迴歸分析，來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。與之前的分類問題（Classification ）不一樣的是，分類問題的結果是離散型的；而回歸問題中的結果是數值型的。描述資料的特徵 1.均值( mean ) 2.中位

一元線性迴歸VS多元線性迴歸

一元線性迴歸和多元線性迴歸表面意思容易理解，但是結合實際的資料集，會混亂。這也是在編寫線性迴歸博文的時候梳理知識點發現自己的不足，同時記錄下來，讓有疑問的同學也可以得到答案，撥開烏雲。 1

【機器學習演算法推導】簡單線性迴歸與多元線性迴歸

線性迴歸，主要用於從資料中擬合出一條直線（或更高維的平面），這條直線能夠很好地體現資料的特徵，比如，它能夠使得平面上的點都均勻地分佈在這條直線上。演算法思想對於簡單線性迴歸和多元線性迴歸，其演算法過程是相同的，不同之處在於簡單線性迴歸只有一個特徵需要擬合，多元線

機器學習(三)線性迴歸、廣義線性迴歸、非線性迴歸

機器學習(三)線性迴歸模型、廣義線性迴歸模型、非線性迴歸模型線性迴歸（資料集要滿足正態分佈）一元線性迴歸模型：在這裡會想到，如何確定方程中的係數呢？我們先來了解最小二乘法，簡單來說就是這個點作y軸的平行線與直線相交，那一段y值的平方求和起來最小就是了

迴歸專題-1-線性迴歸基礎

Title: 迴歸專題-1 | 線線性迴歸基礎

導讀

簡單線性迴歸的學習流程

公式

載入R包

資料準備

計算線性迴歸

快速構建線性迴歸模型

簡單線性迴歸

多重線性迴歸

模型的準確性診斷

預測

討論

參考

相關推薦