R教材6 迴歸

阿新 • • 發佈：2018-11-26

大部分情況下，我們用OLS（最小二乘法）來得出迴歸模型
lm(formula,data)擬合迴歸模型，data是資料框
1. y~x，左邊為響應變數，右邊為解釋變數；+分隔預測變數
2. :表示互動項，x:y
3. *表示所有可能互動項的簡潔方式，x*z=x+z+x:z
4. ^表示互動達到某個次數，(x+z+w)^2=x+z+w+x:z+x:w+z:w
5. .表示出因變數外的所有變數，不包含自變數間的互動項
6. -從等式中移除某個變數
7. -1刪除截距項
8. I()從算術的角度來解釋括號中的元素，如I(x^2)；在R中寫回歸模型，單個x^2是不能寫的，必須這樣寫
9. fun可以在表示式中用的數學函式，可用在因變數，log(y)~x+z
迴歸結果分析函式
1. summary()
2. coefficients()列出模型的係數
3. confint()提供模型引數的置信區間
4. fitted()擬合模型的預測，模型擬合的y值，fitted(模型)
5. residuals()擬合模型的殘差
6. anova()比較多個擬合模型的方差分析，可以比較模型間是否有差異，根據奧卡姆剃刀原則，可以比較是否是最優最簡模型
7. vcov()模型引數的協方差矩陣
8. AIC()赤池資訊統計量
9. plot()作4張圖
10. *abline()在前一個圖上劃直線；lines(x,y)根據點作平滑的曲線
11. *car::scatterplot()更方便地繪製二元關係圖
12. predict()用擬合模型對新資料預測y
13. *options(digits=2)，設定小數點後2位
多元線性迴歸
1. 首先，檢查變數間的相關性cor()
  1. car::scatterplotMatrix()，變數間的散點圖矩陣
2. lm(y~.,data)，在多元迴歸中要考慮互動項，具有相關性就有可能有互動項
  1. effects::effect("term",mod,,xlevels=list(物件=c(確定的多值)))，圖形展示互動項結果（偏方法，一項確定的值下的另一項的變化）；term模型要做的互動項，mod即模型，xlevels是一個列表，指定變數要設定的常量值
    1. 配合作圖plot(effect(),multiline=T)，multiline=T新增相應直線
3. 迴歸診斷，檢驗資料集資料是否滿足統計假設前提，部分情況下得出模型即可，對模型的前提的檢驗是不看重的，但是實際情況下，儘量要滿足前提條件
  1. 線性迴歸的4個前提
    1. *殘差即模型的隨機誤差項的觀測值，殘差的方差即模型的方差
    2. 線性：殘差是一個期望值或平均值為0的隨機變數
    3. 同方差性：殘差具有同方差性
    4. 正態性：殘差服從正態分佈
    5. 獨立性：殘差與預測值不相關
  2. par(mfrow=c(2,2))，plot(mod)檢驗四圖
    1. Residuals vs.Fitted殘差擬合圖：線性和獨立性，擬合線應該是為0的直線，殘差無規律的分佈在0水平線的兩側
    2. Normal Q-Q殘差正態圖：正態性，理論殘差和標準殘差的對應圖，45°直線則殘差正態分佈
    3. scale-Location同方差性：同方差性，滿足不變方差假設，線周圍的點應該隨機分佈
    4. Residuals vs.Leverage殘差槓桿圖：鑑別離群點、高槓杆值點和強影響點
      1. 離群點對模型的預測效果不佳
      2. 高槓杆預測變數x中的離群點
      3. 強影響點表明它對模型引數的估計產生的影響過大
4. 迴歸診斷改進，car包
  1. qqPlot(mod)分位數比較圖
  2. inluencePlot()迴歸影響圖
  3. scatterplot()增強的散點圖
  4. scatterplotMatrix()增強的散點圖矩陣，屬性的相關性矩陣
  5. 改進的前提論證
    1. 正態性：qqPlot(mod，id.method="identity")分位數比較圖：n-p-1個自由度的t分佈下的學生化殘差studentized residual
      1. *source(".R")，匯入R script
    2. 誤差的獨立性：durbinWatsonTest(mod)，DurbinWatson檢驗：檢測誤差的序列相關性，適用於時間獨立的資料，H0：無自相關性
    3. 線性：crPlots(mod)偏殘差圖：對模型的各個屬性進行檢驗，若圖形存在非線性則該屬性的函式形式建模不夠充分，對x或y變形
    4. 同方差性：ncvTest(mod)：計分檢驗，H0：誤差方差不變
      1. spreadLevelPlot(mod)：最佳擬合曲線散點圖，展示標準化殘差絕對值和擬合值的關係，方差不變則點在水平的最佳擬合曲線周圍呈水平隨機分佈；Suggested power transformation建議冪次變換
5. 線性模型假設的綜合驗證：gvlma::gvlma(mod)，summary(gvlma(mod))，對整體前提大概的檢驗，看global stat的結論
6. 多重共線性：自變數之間具有相關性
  1. vif(mod)，vif>4則表明有多重共線性
異常觀測值：模型應該儘量符合資料，而不是資料擬合模型
1. 離群點：outlierTest(mod)，H0：模型中沒有離群點，根據一個絕對值最大的殘差值的顯著性來判斷是否有離群點，看Bonferonni p值，NA代表符合H0
2. 高槓杆值點：異常的預測變數值x，hat statistic帽子統計量，hatvalues(mod)求出帽子統計量，自制hat.plot函式標出高槓杆值點
3. 強影響點：對模型影響較大的點
  1. Cook距離，D統計量：Cook's D>4/(樣本量-x個數-1)
  2. 變數新增圖：avPlots(mod,ask=F)，單個自變數在其他自變數上回歸的殘差值相對於因變數在其他自變數上回歸的殘差值的關係圖
4. 綜合圖：influencePlot(mod)，座標軸>2或<-2離群點，水平軸>0.2高槓杆值點，圓圈大小與影響成比例
對模型的改進：迴歸假設診斷後的解決方法
1. 處理違揹回歸假設
  1. 刪除觀測點
  2. 變數變換
  3. 新增或刪除變數
  4. 使用其他迴歸方法
2. 刪除觀測點：刪除最大的強影響點或離群點
  1. a[-c(which(row.names(a)==""),which(row.names(a)=="")),]，刪除多行
  2. which(row.names(states)=="")，找出行號
3. 變數變換
  1. 當模型違反殘差正態性時，通常對因變數嘗試變換，來估計其次數，summary(car::powerTransform(mod$Response variable))
    1. 檢視Est Power即次數，LR test, lambda = (1) 2.12 1 p=0.1451，而現實中LR test對lambda=1的情況沒有否定，所以還是用1次
  2. 當違反線性時，對X變換，car::boxTidwell(Y~X,data)，對模型預測變數的變換來改善線性關係
    1. 檢視p-value和MLE of lambda，H0：預測變數不需要變換
  3. 當違反同方差性時，變換自變數spreadLevelPlot(mod)作圖並提供冪次變換建議
  4. 謹慎對待變數變換，必須對非線性迴歸模型中的變數有現實意義的解釋
4. 增刪變數：處理多重共線性問題時，去除相關變數
  1. 嶺迴歸：嶺迴歸是一種專用於共線性資料分析的有偏估計迴歸方法，以損失部分資訊、降低精度為代價獲得迴歸係數，對病態資料的擬合要強於最小二乘法
5. 其他迴歸方法
  1. 離群點、強影響點：穩健迴歸模型
  2. 違背正態性：非引數迴歸模型
  3. 違背線性：非線性迴歸模型
  4. 違背誤差獨立性：時間序列模型或多層次迴歸模型
  5. 違背同方差性：廣義線性模型
選擇最佳的迴歸模型
1. 模型比較
  1. anova(mod1,mod2)，比較兩個巢狀模型的相似度，巢狀模型即1個mod完全包含在另1個mod裡；沒有顯著不同則選擇簡單的模型
    1. H0：兩個模型沒有顯著不同
  2. AIC赤池資訊準則：AIC(mod1,mod2)，比較的模型不需要巢狀
    1. AIC小的模型表示用較少的引數獲得了足夠的擬合度
2. 變數選擇：當模型較多時，不能比較模型，直接選擇可用變數
  1. 逐步迴歸：每一步加入一個變數，再評估模型，對沒有貢獻的變數再刪除；但並不會將每一個可能的模型進行評估
    1. MASS::stepAIC(mod,direction="")，增減變數的準則為精確AIC準則
  2. 全子集迴歸：所有可能的模型都會被檢驗，leaps::regsubsets(y~x,data,nbest)，nbest是n個不同自變數個數的前n個最佳模型
    1. 作圖plot(regsubsets(),scale="adjr2")，adjust R^2，陰影代表包含的預測變數x，垂直座標代表其調整R^2
3. 最佳的模型必須要有現實意義，理解背景知識有助於模型的開發
深層次分析
1. 交叉驗證：一定比例的資料作為訓練樣本，另外的資料作為保留樣本，在保留樣本上做預測，測算出真實的泛化誤差（未知樣本的正確率）
  1. k切法：等分為k個子集，(k-1)個訓練，1個預測，比較k個預測方程的準確率，bootstrap::crossval()
2. 相對重要性：預測變數的重要性排序
  1. 標準化的迴歸係數：scale()資料標準化（返回矩陣），再進行迴歸（需要資料框），得到標準的迴歸係數，as.data.frame(scale(data))
  2. 相對權重：對所有可能的子模型新增一個預測變數引起的R^2平均增加量的一個近似值，spss中的函式結果是每個預測變數對模型的方差的解釋佔比

R教材6 迴歸

大部分情況下，我們用OLS（最小二乘法）來得出迴歸模型 lm(formula,data)擬合迴歸模型，data是資料框 y~x，左邊為響應變數，右邊為解釋變數；+分隔預測變數 :表示互動項，x:y *表示所有可能互動項的簡潔方式，x*z=x+z+x:

R語言線性迴歸

迴歸分析是一個廣泛使用的統計工具，用於建立兩個變數之間的關係模型。這些變數之一稱為預測變數，其值通過實驗收集。另一個變數稱為響應變數，其值來自預測變數。線上性迴歸中，這兩個變數通過一個等式相關聯，其中這兩個變數的指數(冪)是1。數學上，當繪製為圖形時，線性關係表示直線。任何變數的指數不等於1的非線性關

R教材11.2 隨機森林與支援向量機

隨機森林是組成式監督學習演算法，同時使用多個預測模型，將模型的結果彙總以提升分類準確率；對樣本單元和屬性進行抽樣，產生大量的決策樹，再對檢驗的樣本單元進行依次分類，從而得到未知樣本單元的類演算法：訓練集中有N個樣本單元，M個變數從訓練集中隨機有放

R教材11.1 分類與決策樹

分類目的：根據一組預測變數來預測相對應的分類結果，實現對新出單元的準確分類有監督學習：基於已知類的資料樣本，將全部資料分為訓練集和驗證集用到的包：rpart，rpart.plot，party，randomForest，e1071 隨機抽樣： set.se

R教材10 聚類分析

營銷研究人員根據消費者的人口統計特徵和購買行為的相似性制定客戶細分戰略聚類的一般步驟：選擇對聚類結果有效的資料對每個變數標準化：z分數scale()，分位數或（x-μ）/平均絕對偏差；變數間數值差距較大時必須標準化尋找異常點並去除（或研究）：

R教材8 功效分析

在給定置信度下，判斷檢測到給定值時所需要的樣本量；也能計算在某樣本量內能檢測到給定效應值的概率功效是1-二類錯誤，1-β，看做真實效應發生的概率效應值是在備選或研究假設下效應的量對於每個函式，使用者設定（樣本大小n，顯著性水平α，功效，效應值）中的三

R教材7 方差分析

方差分析：組間差別分析aov(formula,data)，將組別因子加入到函式雙因素方差分析中，若不同的分組中組內觀測數不同則模型的順序具有唯一性；ANOVA模型的順序很重要，模型Y~A+B+A:B，其中Y為因變數，A,B為分組量序貫型：後面對線出現的效應做調整，A

R教材5 統計

summary()，統計描述，因子向量和邏輯向量的頻數統計，包括缺失值統計，同樣作用的有 Hmisc包中的describe() pastecs包中的stat.desc() psych包中的describe() 多個包中有相同名的函式，執行最後載入

R教材4 高階資料管理

數值與字元處理函式數學函式，物件非單個數值時，會作用於每個數值絕對值abs() 平方根sqrt() 舍入小數round(,digits=) 對數 log(

R教材3 資料管理

根據原物件建立新變數，物件=transform(物件,新變數) 變數的重編碼variable[condition]<-expression，變數的下標運算子設定條件，當condition為T時則執行賦值；within(物件,{新變數[原變數的判斷條件]=新值})，建立新物件，{}內

27 Sep 2018 R 語言 logistics 迴歸學習筆記

Logistics regression有著非常好的模型解釋，以下為本人總結的在adult資料集上的模型解釋步驟 ##第1步：load data experiment_data<-read.table(‘C:\Users\data\adult.txt’,sep = ‘,’, he

R語言-邏輯迴歸+主成分分析-員工離職預測訓練賽

題目：員工離職預測訓練賽網址：http://www.pkbigdata.com/common/cmpt/員工離職預測訓練賽_競賽資訊.html 要求：資料主要包括影響員工離職的各種因素（工資、出差、工作環境滿意度、工作投入度、是否加班、是否升職、工資提升比例等）以及員工

用R語言進行迴歸分析

1.單變數線性迴歸 > y<-c(5,7,9,11,16,20) > x<-c(1,2,3,4,7,9) > lsfit(x,y) $coefficients Int

R語言與迴歸分析學習筆記（bootstrap method）

Bootstrap方法在之前的博文《R語言與點估計學習筆記（EM演算法與Bootstrap法）》裡有提到過，簡而言之，bootstrap方法就是重抽樣。為什麼需要bootstrap方法呢？因為bootstrap方法使得我們無需分佈理論的知識也可以進行假

R語言logistic迴歸模型

logistic迴歸模型為：對上面的模型進行變換，得到線性形式的logistic迴歸模型：在二項分佈族中，logistic迴歸是重要的模型。在某些迴歸問題中，響應變數是分類的，經常是要麼成功，要麼失敗。在R語言構建資料框時，應輸入一列成功（響應）的次數和一列不成

8.1 機器學習—R語言-線性迴歸

機器學習就是擬人資料+演算法-->找規律大資料公司主要分四類：1,資料擁有者，資料來源，PB級資料的包子鋪2,大資料諮詢公司，Cloudera--CDH3,大資料工具公司，Databricks--Apache Shark4,整合應用型，結合機器學習來解決更多實際的痛點機

R語言 | 多元迴歸分析中的對照編碼（contrast coding） | 第一節 dummy variable（啞變數）和 dummy coding

對於一個自變數是分類變數Categorical Factor的迴歸模型，需要為該Factor的每個Level建立dummy variable。Contrast Matrix把每個Level對映為dummy variable的值。我們看一個例子來感性認識下dummy v

R中logistics迴歸分析以及K-CV

K倍交叉驗證是對模型的效能進行評估，可以用來防止過擬合，比如對決策樹節點數目的確定或是迴歸模型引數個數地決定等情況。 1.對於一些特殊資料來說，在呼叫glm()方法時候，會出現兩種常見錯誤 Warning: glm.fit: algorithm did no

R建模之迴歸（一）

3種常見的迴歸模型：線性迴歸（預測連續型變數比如嬰兒出生體重），邏輯迴歸（預測二元變數比如過低出生體重與正常出生體重），泊松分佈（計數比如每年或每個國家過低出生體重嬰兒人數）我們以gamlss.data包提供的usair資料集進行研究，US空氣汙染資料集。我們希望預測根據城市

R語言邏輯迴歸

# 邏輯迴歸是迴歸模型，其中響應變數（因變數）具有諸如True / False或0/1的分類值。它實際上基於將其與預測變數相關的數學方程測量二元響應的概率作為響應變數的值。# 邏輯迴歸的一般數學方程為 -# y = 1/(1+e^-(a+b1x1+b2x2+b3x3+.

R教材6 迴歸

相關推薦