用R進行多元線性迴歸分析建模

阿新 • • 發佈：2019-02-09

概念：多元迴歸分析預測法，是指通過對兩個或兩個以上的自變數與一個因變數的相關分析，建立預測模型進行預測的方法。當自變數與因變數之間存在線性關係時，稱為多元線性迴歸分析。

下面我就舉幾個例子來說明一下

例一：謀殺率與哪些因素有關

變數選擇

states<-as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])
cor(states)#檢視變數相關係數
               Murder Population Illiteracy     Income      Frost
Murder      1.0000000  0.3436428  0.7029752 -0.2300776 -0.5388834
Population  0.3436428  1.0000000  0.1076224  0.2082276 -0.3321525
Illiteracy  0.7029752  0.1076224  1.0000000 -0.4370752 -0.6719470
Income     -0.2300776  0.2082276 -0.4370752  1.0000000  0.2262822
Frost      -0.5388834 -0.3321525 -0.6719470  0.2262822  1.0000000

我們可以明顯的看出謀殺率與人口，文盲率相關性較大

將它們的關係視覺化

library(car)
scatterplotMatrix(states,spread=FALSE)

還可以這麼看

fit<-lm(Murder~Population+Illiteracy+Income+Frost,data = states)
summary(fit)

Call:
lm(formula = Murder ~ Population + Illiteracy + Income + Frost, 
    data = states)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7960 -1.6495 -0.0811  1.4815  7.6210 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1.235e+00  3.866e+00   0.319   0.7510    
Population  2.237e-04  9.052e-05   2.471   0.0173 *  
Illiteracy  4.143e+00  8.744e-01   4.738 2.19e-05 ***
Income      6.442e-05  6.837e-04   0.094   0.9253    
Frost       5.813e-04  1.005e-02   0.058   0.9541    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.535 on 45 degrees of freedom
Multiple R-squared:  0.567,	Adjusted R-squared:  0.5285 
F-statistic: 14.73 on 4 and 45 DF,  p-value: 9.133e-08

還可以這麼看

#install.packages('leaps')
library(leaps)
leaps<-regsubsets(Murder~Population+Illiteracy+Income+Frost,data = states,nbest = 4)
plot(leaps,scale = 'adjr2')

最大值0.55是隻包含人口，文盲率這兩個變數和截距的。

還可以這樣，比較標準迴歸係數的大小

zstates<-as.data.frame(scale(states))#scale()標準化
zfit<-lm(Murder~Population+Illiteracy+Income+Frost,data = zstates)
coef(zfit)
 (Intercept)    Population    Illiteracy        Income         Frost 
-2.054026e-16  2.705095e-01  6.840496e-01  1.072372e-02  8.185407e-03

通過這幾種方法，我們都可以明顯的看出謀殺率與人口，文盲率相關性較大，與其它因素相關性較小。

迴歸診斷

> confint(fit)
                    2.5 %       97.5 %
(Intercept) -6.552191e+00 9.0213182149
Population   4.136397e-05 0.0004059867
Illiteracy   2.381799e+00 5.9038743192
Income      -1.312611e-03 0.0014414600
Frost       -1.966781e-02 0.0208304170

標記異常值

qqPlot(fit,labels = row.names(states),id.method = 'identify',simulate = T)

圖如下，點一下異常值然後點finish就可以了

檢視它的實際值11.5與擬合值3.878958，這條資料顯然是異常的，可以拋棄

> states['Nevada',]
       Murder Population Illiteracy Income Frost
Nevada   11.5        590        0.5   5149   188
> fitted(fit)['Nevada']
  Nevada 
3.878958 
> outlierTest(fit)#或直接這麼檢測離群點
       rstudent unadjusted p-value Bonferonni p
Nevada 3.542929         0.00095088     0.047544

car包有多個函式，可以判斷誤差的獨立性，線性，同方差性

library(car)
durbinWatsonTest(fit)
crPlots(fit)
ncvTest(fit)
spreadLevelPlot(fit)

綜合檢驗

#install.packages('gvlma')
library(gvlma)
gvmodel<-gvlma(fit);summary(gvmodel)

檢驗多重共線性

根號下vif>2則表明有多重共線性

> sqrt(vif(fit))
Population Illiteracy     Income      Frost 
  1.115922   1.471682   1.160096   1.443103

都小於2所以不存在多重共線性

例二：女性身高與體重的關係

attach(women)
plot(height,weight)

通過圖我們可以發現，用曲線擬合要比直線效果更好

那就試試唄

fit<-lm(weight~height+I(height^2))#含平方項
summary(fit)

Call:
lm(formula = weight ~ height + I(height^2))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.50941 -0.29611 -0.00941  0.28615  0.59706 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 261.87818   25.19677  10.393 2.36e-07 ***
height       -7.34832    0.77769  -9.449 6.58e-07 ***
I(height^2)   0.08306    0.00598  13.891 9.32e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3841 on 12 degrees of freedom
Multiple R-squared:  0.9995,    Adjusted R-squared:  0.9994 
F-statistic: 1.139e+04 on 2 and 12 DF,  p-value: < 2.2e-16

效果是很不錯的，可以得出模型為

把擬合曲線加上看看

lines(height,fitted(fit))

非常不錯吧

還可以用car包的scatterplot()函式

library(car)
scatterplot(weight~height,spread=FALSE,pch=19)#19實心圓，spread=FALSE刪除了殘差正負均方根在平滑曲線上
展開的非對稱資訊，聽著就不像人話，你可以改成TRUE看看到底是什麼，我反正不明白。

例三：含互動項

<strong>attach(mtcars)
fit<-lm(mpg~hp+wt+hp:wt)
summary(fit)
Call:
lm(formula = mpg ~ hp + wt + hp:wt)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.0632 -1.6491 -0.7362  1.4211  4.5513 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 49.80842    3.60516  13.816 5.01e-14 ***
hp          -0.12010    0.02470  -4.863 4.04e-05 ***
wt          -8.21662    1.26971  -6.471 5.20e-07 ***
hp:wt        0.02785    0.00742   3.753 0.000811 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.153 on 28 degrees of freedom
Multiple R-squared:  0.8848,	Adjusted R-squared:  0.8724 
F-statistic: 71.66 on 3 and 28 DF,  p-value: 2.981e-13</strong>

其中的hp:wt就是互動項，表示我們假設hp馬力與wt重量有相關關係，通過全部的三個星可以看出響應/因變數mpg（每加侖英里）與預測/自變數都相關，也就是說mpg（每加侖英里）與汽車馬力/重量都相關，且mpg與馬力的關係會根據車重的不同而不同。

用R進行多元線性迴歸分析建模

概念：多元迴歸分析預測法，是指通過對兩個或兩個以上的自變數與一個因變數的相關分析，建立預測模型進行預測的方法。當自變數與因變數之間存在線性關係時，稱為多元線性迴歸分析。下面我就舉幾個例子來說明一下

利用R進行多元線性迴歸分析

對於一個因變數y，n個自變數x1,...,xn，要如何判斷y與這n個自變數之間是否存線上性關係呢？肯定是要利用他們的資料集，假設資料集中有m個樣本，那麼，每個樣本都分別對應著一個因變數和一個n維的自變

【機器學習演算法】基於R語言的多元線性迴歸分析

多元線性迴歸的適用條件：（1）自變數對應變數的變化具有顯著影響（2）自變數與應變數間的線性相關必須是真實的，而非形式上的（3）自變數之間需有一定的互斥性（4）應具有完整的統計資料訓練資料：csv格式，含有19維特徵資料下載地址：http://pan.baidu

#使用SAS進行變數篩選、模型診斷、多元線性迴歸分析 #

　轉載，太經典了，學習了第一節　多元線性迴歸分析的概述　　迴歸分析中所涉及的變數常分為自變數與因變數。當因變數是非時間的連續性變數(自變數可包括連續性的和離散性的)時，欲研究變數之間的依存關係,多元線性迴歸分析是一個有力的研究工具。　　多元迴歸

多元線性迴歸分析練習題

表 11.2 資料 python程式碼 import pandas as pd import statsmodels.api as sm ex922 = pd.read_csv('D:ex922.csv',encoding='gbk') values = ['人口數量X1','蔬菜價

多元線性迴歸分析-Python&SPSS

原始資料在這裡1.觀察資料首先，用Pandas開啟資料，並進行觀察。import numpy import pandas as pd import matplotlib.pyplot as plt %matplotlib inline data = pd.read_csv

R中的線性迴歸分析

迴歸分析(regression analysis) 迴歸分析是研究自變數與因變數之間關係形式的分析方法，它主要是通過建立因變數Y與影響它的自變數Xi(i=1,2,3...)之間的迴歸模型，來預測因變數

Python金融系列第五篇：多元線性迴歸和殘差分析

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 第一篇：計算股票回報率，均值和方差第二篇：簡單線性迴歸第三篇：隨機變數和分佈第四篇：置信區間和假設檢驗第五篇：多元線性迴歸和殘差分析第六篇：現代投資組合

《用Python玩轉資料》專案—線性迴歸分析入門之波士頓房價預測（二）

接上一部分，此篇將用tensorflow建立神經網路，對波士頓房價資料進行簡單建模預測。二、使用tensorflow擬合boston房價datasets 1、資料處理依然利用sklearn來分訓練集和測試集。 2、使用一層隱藏層的簡單網路，試下來用當前這組超引數收斂較快，準確率也可以。 3、啟用函式

用R進行meta分析（meta包）

1.異質性檢驗 install.packages("meta") library(meta) meta3<-metagen(metabirth3$β,metabirth3$se, sm="β",studlab=paste(author,year),comb.fix

用R進行統計學分析

1、基本統計 summary函式:R中的summary函式根據輸入的類提供輸入的摘要。該函式根據輸入物件的類呼叫各種函式。返回值也取決於輸入物件。例如，如果輸入是一個由數字資料組成的向量，它將為資料提供平均值、中值、最小值、最大值和四分位數，而如果輸入是表格(數字)資料，它將為每一列提供類似的計算。 co

基於R語言的多元線性迴歸--我國經濟增長的定量研究

基於R語言的多元線性迴歸--我國經濟增長的定量研究一、實

手把手教線性迴歸分析（附R語言例項）

本文長度為8619字，建議閱讀15分鐘本文為你介紹線性迴歸分析。通常在現實應用中，我們需要去理解

tensorflow 做多元線性迴歸時怎樣對非資料型資料（分型別資料）進行處理（編碼）

程式碼如下：def read_data(file_queue): ''' the function is to get features and label (即樣本特徵和樣本的標籤）資料來源是csv的檔案，採用tensorflow 自帶的對csv檔案的處

量化投資學習筆記16——迴歸分析:多元線性迴歸

理論模型 y = β0 + β1x1 + β2x2 + … + βpxp + ε 意義與一元線性迴歸相同。 E(y) = E(β0 + β1x1 + β2x2 + … + βpxp + ε) => y = β0 + β1x1 + β2x2 + … + βpxp 列線性方程組 y1 = β0 + β1x1

matlab做三維線性擬合（多元線性迴歸，準確來說不叫插值）

matlab三維擬合（多元線性迴歸）問題描述今天同學問了我一個問題，大概意思是給了你三列輸入資料，一列輸出資料，想用一個線性超平面做一個最小二乘擬合（注意這裡不能叫插值）。一點思考剛聽到這個問題，同學說的是做插值，說想要做一個插值，這種說法不準確的，不想說迴歸的話

Bobo老師機器學習筆記第五課-多元線性迴歸

思維導圖學習筆記自己參考BoBo老師課程講解實現： # -*- coding: utf-8 -*- import numpy as np from metrics import r2_score class LinearRegression(object): def __

7.線性迴歸之多元線性迴歸

概念：當自變數有多個時，迴歸模型就變成了：多元迴歸方程變為：估計多元迴歸方程變為：估計方法：多元迴歸的求解比簡單線性迴歸複雜但是思路是相同的，運用最小二乘法進行相應的求解，這裡不再進行展開。 python實現的小例子：問題：如故一

Tensorflow之多元線性迴歸問題（以波士頓房價預測為例）

一、根據波士頓房價資訊進行預測，多元線性迴歸+特徵資料歸一化 #讀取資料 %matplotlib notebook import tensorflow as tf import matplotlib.pyplot as plt import numpy as np

用basicTrendline畫一元線性迴歸直線的置信區間

感慨統計學都還給老師了。。惡補！ R安裝包的時候貌似需要用管理員許可權啟動，否則安裝不了，國內映象卡得渣渣，還是國外映象真香~選擇hongkong就好了。 install.packages("basicTrendline") library(basicTrendline) x1&l

用R進行多元線性迴歸分析建模

相關推薦