R語言--迴歸（迴歸分析、迴歸診斷、模型綜合驗證）

阿新 • • 發佈：2021-07-06

1 OLS迴歸（最小二乘法迴歸）

1.1 用lm()擬合迴歸模型

在R中，擬合線性模型最基本的函式是lm()，格式為：myfit<-lm(formula,data)

1.2 簡單線性迴歸

dat<-women

fit<-lm(weight~height,data=dat)

summarize(fit)

結果分析：迴歸方程weight = 3.45 height - 87.51667，這兩個估計值是否可靠呢，需要看Pr(>|t|)值，p值小於0.05，我們就認為它在95%的置信區間上是不為0的，它的統計是顯著的，簡單一點，只要有星星，結果就可以認為是可靠的，看擬合優度Adjusted R-squared

：0.9903，結果是非常好的，p-value是對整個方程的估計， p-value: 1.091e-14<0.05可以認為結果是可靠的

plot(dat$height,dat$weight)#檢視height和weight的散點圖（實際散點圖）

abline(fit)#畫迴歸線，檢視擬合結果（估計出來的線）

結果分析：散點圖是實際的資料，迴歸線基本在散點圖附近，說明擬合效果比較好

1.3 多項式迴歸（身高和體重的平方）

fit1<-lm(weight~height+I(height^2),data=dat)

解釋：為了防止錯誤識別^，加了一個I()函式，指出^是一個常規得符號

> summary(fit1)

結果分析：迴歸方程weight = -7.34832height + 0.08306height^2 + 261.87818，這兩個估計值是否可靠，需要看Pr(>|t|)值，p值小於0.05，我們就認為它在95%的置信區間上是不為0的，它的統計是顯著的，簡單一點，只要有星星，結果就可以認為是可靠的，看擬合優度Adjusted R-squared：0.9994，結果是非常好的，p-value是對整個方程的估計， p-value: 2.2e-16<0.05可以認為結果是可靠的，對比上一個可以看出這個擬合優度更高

plot(dat$height,dat$weight)#畫散點圖

lines(dat$height,fitted(fit1))

解釋：使用函式lines()畫線，abline()只適用於一元，要給出橫座標dat$height，縱座標fitted(fit1)

1.4 多元線性迴歸（預測變數不止一個）

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

cor(states)#列出是所有列變數兩兩之間的相關係數

畫出全部兩兩變數之間的關係：

library(car)

scatterplotMatrix(states,spead=F,smooth.args=list(lty=2)

結果分析：對角線是單變數自己的分佈情況，其他情況雖然點很複雜，但上面清晰的描述了一條實線，大致說明了變數之間的關係

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #迴歸分析

解釋：Murder是預測變數，Population+Illiteracy+Income+Frost是解釋變數

summary(fit2)

結果分析：Murder與Population和Illiteracy的關係後面的Pr(>|t|)小於0.05，後面有星星，說明他們之間的關係是顯著的，Murder與Income和Frost的關係後面的Pr(>|t|)大於0.05，後面也沒有星星，說明其關係不顯著，並且Income和Frost前面的係數 Estimate是正的，說明其與Murder是正相關，但是從上面的散點圖可以看出，估計出來的直線是向下的，即呈現負相關性，所以可以認為Murder與Income和Frost沒什麼關係

錯誤：下標出界

修正：檢查列名是否寫正確

1.1有互動項的多元線性迴歸

互動項：響應變數與其中一個預測變數的關係還依賴另外一個預測變數的水平

fit3<-lm(mpg~hp+wt+hp:wt,data=mtcars)#迴歸分析，互動項用冒號：連線

summary(fit3)

結果分析：可以看出mpg與hp和wt以及它們的互動項hp:wt都是有關係的，後面有星星，三顆星表示關係是最好的

2 迴歸診斷

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #迴歸分析

解釋：Murder是預測變數，Population+Illiteracy+Income+Frost是解釋變數

summary(fit2)

confint(fit2) #給出區間估計，95%的可能

2.1 標準方法

dat<-women#確定資料集

fit<-lm(height~weight,data=dat)#做迴歸分析

summary(fit)

opar<-par(no.readonly = T)

par(mfrow=c(2,2))#畫圖

plot(fit)

結果分析：右上角是Q-Q圖，反應樣本的正態性，樣本散點圖呈一條直線，基本認定是服從正太假設的；左上圖是觀察樣本的線性問題的，很明顯這個呈現是二次曲線，不滿足線性；左下角圖是觀察樣本的同方差性，如果是同方差性，這個線會在散點圖的上下兩側波動，這個圖是符合的；右下角圖是獨立性，觀察離群值

dat<-women

fit1<-lm(weight~height+I(height^2),data=dat)

opar<-par(no.readonly = T)

par(mfrow=c(2,2))

plot(fit1)

結果分析：右上角是Q-Q圖，反應樣本的正態性，樣本散點圖呈一條直線，基本認定是服從正太假設的；左上圖是觀察樣本的線性問題的，這次是擬合weight與height平方之間的關係，可以看出基本滿足線性；左下角圖是觀察樣本的同方差性，如果是同方差性，這個線會在散點圖的上下兩側波動，這個圖是符合的；右下角圖是獨立性，觀察離群值

2.2 改進方法

library(car)

（1）正態性

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #迴歸分析

解釋：Murder是預測變數，Population+Illiteracy+Income+Frost是解釋變數

summary(fit2)

par(mfrow=c(1,1))#把繪圖區域恢復

qqplot(fit2,labels=row.names(states),id.mentod="identify",

simulate=T,main="QQ plot")

結果分析：大多數點置信區間（兩條虛線之間）範圍內，點基本在一條直線上，我們可以認為此樣本基本符合正太分佈

這個州 Nevada 的估計值：

這個州 Nevada 的實際值：

結論：這個州的估計和實際差別很大，在實際應用中可以當離群點刪掉

錯誤：種類'list'目前沒有在'greater'裡實現

修正：這裡是為什麼呢？？

後來仔細檢查了語句，單詞大小寫錯了

（2）獨立性

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #迴歸分析

解釋：Murder是預測變數，Population+Illiteracy+Income+Frost是解釋變數

durbinWatsonTest(fit2)

結論分析：我們希望p-value的值越大越好，如何很大，就說明不相關，即互相獨立，基本上我們可以認為這些變數是互相獨立的

（3）線性

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)

par(mfrow=c(2,2))

crPlots(fit2)#畫成分殘差圖

結果分析：虛線是直線，是最小二乘法估計，我們需要看實線是否與虛線基本重合，若基本重合，我們認為是呈線性關係的

（4）同方差性

ncvTest(fit2)

結果分析：跟上面一樣，P值越大越好，P越大說明其是同方差性的，滿足假設

2.3 線性模型假設的綜合驗證

install.packages("gvlma")

library(gvlma)

states<-as.data.frame(state.x77[,c("Murder",

"Population","Illiteracy","Income","Frost")])

fit2<-lm(Murder~Population+Illiteracy+Income+Frost,data=states) #迴歸分析

解釋：Murder是預測變數，Population+Illiteracy+Income+Frost是解釋變數

gvmodel<-gvlma(fit2)

summary(gvmodel)

結果分析：這裡後面都是acceptable，若是不接受，要一個個檢查上面四個圖

2.3.1 多重共線性

vif(fit2)

結果分析：計算出這四個方差膨脹因子，書本上認為小於4就可以，實際上我們還是會計算一下相關係數

cor(states) #做兩兩變數之間的相關性係數的比較

結果分析：一般對角線上的值越大越好，除對角線以外的矩陣數字最好不要大於0.7

本文來自部落格園，作者：zhang-X，轉載請註明原文連結：https://www.cnblogs.com/YY-zhang/p/14978845.html

R語言--迴歸（迴歸分析、迴歸診斷、模型綜合驗證）

R語言--迴歸（迴歸分析、迴歸診斷、模型綜合驗證）

R語言用主成分分析（PCA）PCR迴歸進行預測汽車購買資訊視覺化

拓端tecdat|R語言平滑演算法LOESS區域性加權迴歸、三次樣條、變化點檢測擬合電視節目《白宮風雲》線上收視率

拓端tecdat：R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資

拓端tecdat：R語言STAN貝葉斯線性迴歸模型分析氣候變化影響北半球海冰範圍和視覺化檢查模型收斂性

R語言缺失資料變數選擇LASSO迴歸：Bootstrap重（再）抽樣插補和推算

R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資|附程式碼資料

用R語言做時間序列分析（附資料集和原始碼）

拓端tecdat|R語言視覺化漸近正態性、收斂性：大數定律、中心極限定理、經驗累積分佈函式

基於R語言的時間序列分析預測

拓端tecdat：R語言因子實驗設計nlme擬合非線性混合模型分析有機農業施氮水平

用R語言作社群關係分析

R語言中的隱馬爾可夫HMM模型例項

Mybatis之增刪改查實現（對比分析物件傳參和map傳參）

13-05 Java語言基礎（常用工具類之BigInteger類 & BigDecimal類）

拓端tecdat：R語言貝葉斯廣義線性混合效應（多層次/水平/巢狀）模型GLMM、邏輯迴歸分析教育留級影響因素資料

R語言混合效應邏輯迴歸（mixed effects logistic）模型分析肺癌資料|附程式碼資料

R語言逐步迴歸、方差anova分析電影市場調查問卷資料視覺化

R語言非引數模型釐定保險費率：區域性迴歸、廣義相加模型GAM、樣條迴歸

R語言解決單因素方差分析以及迴歸分析問題--T檢驗+逐步迴歸法+顯著性檢驗

R語言--迴歸（迴歸分析、迴歸診斷、模型綜合驗證）

相關推薦