R中因子水平的自動組合

阿新 • • 發佈：2018-11-03

每次我們在應用計量經濟學課程中面對實際應用時，我們都必須處理分類變數。同樣的問題也發生在學生身上：我們怎樣才能自動地結合因素水平呢？有簡單的R函式嗎？

在過去的幾年裡，我確實上傳了一些部落格文章。但到目前為止沒有什麼令人滿意的。讓我寫下幾行關於可以做什麼的話。如果有人想寫一個很好的R函式，那就太棒了。為了說明這一想法，請考慮以下(模擬資料集)：

n=200

set.seed(1)

x1=runif(n)

x2=runif(n)

y=1+2*x1-x2+rnorm(n,0,.2)

LB=sample(LETTERS[1:10])

b=data.frame(y=y,x1=x1,

             x2=cut(x2,breaks=

             c(-1,.05,.1,.2,.35,.4,.55,.65,.8,.9,2),

             labels=LB))

str(b)

'data.frame':200 obs. of  3 variables:

 $ y : num  1.345 1.863 1.946 2.481 0.765 ...

 $ x1: num  0.266 0.372 0.573 0.908 0.202 ...

 $ x2: Factor w/ 10 levels "I","A","H","F",..: 4 4 6 4 3 6 7 3 4 8 ...

table(b$x2)[LETTERS[1:10]]

 A  B  C  D  E  F  G  H  I  J

11 12 23 34 23 36 12 32  3 14

有一個(連續)因變數y，一個連續協變數x_1和一個範疇變數x_2，具有十個水平。我們可以使用以下方法繪製資料：

plot(b$x1,y,col="white",xlim=c(0,1.1))

text(b$x1,y,as.character(b$x2),cex=.5)

線性迴歸的輸出產生以下預測：

for(i in 1:10){

p=function(x) predict(lm(y~x1+x2,data=b),newdata=data.frame(x1=x,x2=LETTERS[i]))

u=seq(-1,1.065,by=.01)

v=Vectorize(p)(u)

lines(u,v)}

x_1的斜率是相同的，我們只需為每個級別新增一個不同的常數。正如我們所看到的，一些級別非常接近，因此將它們合併成一個類別似乎是合理的。以下是線性迴歸的輸出：

summary(lm(y~x1+x2,data=b))

Coefficients:

             Estimate Std. Error t value Pr(&gt;|t|)

(Intercept)  0.843802   0.119655   7.052 3.23e-11 ***

x1           1.992878   0.053838  37.016  &lt; 2e-16 ***

x2A          0.055500   0.131173   0.423   0.6727

x2H          0.009293   0.121626   0.076   0.9392

x2F         -0.177002   0.121020  -1.463   0.1452

x2B         -0.218152   0.130192  -1.676   0.0955 .

x2D         -0.206970   0.121294  -1.706   0.0896 .

x2G         -0.407417   0.129999  -3.134   0.0020 **

x2C         -0.526708   0.123690  -4.258 3.24e-05 ***

x2J         -0.664281   0.128126  -5.185 5.54e-07 ***

x2E         -0.816454   0.123625  -6.604 3.94e-10 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2014 on 189 degrees of freedom

Multiple R-squared:  0.8995,Adjusted R-squared:  0.8942

F-statistic: 169.1 on 10 and 189 DF,  p-value: &lt; 2.2e-16

AIC(lm(y~x1+x2,data=b))

[1] -60.74443

BIC(lm(y~x1+x2,data=b))

[1] -21.16463

在這裡，參考類別是“I”。看起來我們可以把這個類別和其他幾個類別結合起來。這裡的一種策略是選擇似乎沒有明顯區別的所有類別，並執行一個(多個)測試：

library(car)

linearHypothesis(lm(y~x1+x2,data=b), c("x2A = 0", "x2H = 0", "x2F = 0"))

Hypothesis:

x2A = 0

x2H = 0

x2F = 0

Model 1: restricted model

Model 2: y ~ x1 + x2

  Res.Df    RSS Df Sum of Sq      F Pr(&gt;F)

1    192 8.4651

2    189 7.6654  3   0.79971 6.5726  3e-04 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

看來我們可以把這四個類別結合起來。

在這裡，我們可以看到當我們更改引用類別時發生了什麼(實際上，在所有類別上迴圈)：

P=matrix(NA,nlevels(b$x2),nlevels(b$x2))

colnames(P)=rownames(P)=LETTERS[1:10]

plot(1:nlevels(b$x2),1:nlevels(b$x2),col="white",xlab="",ylab="",axes=F,xlim=c(0,10.5),

     ylim=c(0,10.5))

text(1:10,0,LETTERS[1:10])

text(0,1:10,LETTERS[1:10])

for(i in 1:nlevels(b$x2)){

#levels(b$x2)=LETTERS[1:10]

b$x2=relevel(b$x2,LETTERS[i])

p=summary(lm(y~x1+x2,data=b))$coefficients[-(1:2),4]

names(p)=substr(names(p),3,3)

P[LETTERS[i],names(p)]=p

p=P[LETTERS[i],]

idx=which(p&gt;.05)

points(((1:10))[idx],rep(i,length(idx)),pch=1,cex=2)

idx=which(p&gt;.1)

points(((1:10))[idx],rep(i,length(idx)),pch=19,cex=2)}

我們很高興看到它是對稱的：如果“H”應該與“i”結合，那麼“i”也應該與“H”結合。

在這裡，黑點與10%p值有關，白色點與5%p值有關.這張圖其實很難讀.。事實上，這讓我們想起Bertin(1967年).

在這裡，我們可以手動預定義一些排序(下面我們將看到它是如何自動化的)：

LETTERSord=c("I","A","H","F","B","D","G","C","J","E")

P=matrix(NA,nlevels(b$x2),nlevels(b$x2))

colnames(P)=rownames(P)=LETTERSord

plot(1:nlevels(b$x2),1:nlevels(b$x2),col="white",xlab="",ylab="",axes=F,xlim=c(0,10.5),

     ylim=c(0,10.5))

ct=c(3,3,2,1,1)

abline(v=.5+c(0,cumsum(ct)),lty=2)

abline(h=.5+c(0,cumsum(ct)),lty=2)

text(1:10,0,LETTERSord)

text(0,1:10,LETTERSord)

for(i in 1:nlevels(b$x2)){

  #levels(b$x2)=LETTERS[1:10]

  b$x2=relevel(b$x2,LETTERSord[i])

  p=summary(lm(y~x1+x2,data=b))$coefficients[-(1:2),4]

  names(p)=substr(names(p),3,3)

  P[LETTERSord[i],names(p)]=p

  p=P[LETTERSord[i],]

  idx=which(p&gt;.05)

  points(((1:10))[idx],rep(i,length(idx)),pch=1,cex=2)

  idx=which(p&gt;.1)

  points(((1:10))[idx],rep(i,length(idx)),pch=19,cex=2)

在這裡，我們得到以下資訊：

It looks like we have our combined categories...

實際上，使用另一種策略是可能的。我們從某種程度上說“A”。然後，我們將它與所有非顯著的不同級別合併起來。如果“B”不是其中之一，我們使用它作為新的參考。等

for(i in 1:nlevels(b$x2)){

  if(LETTERS[i]%in%levels(b$x2)){

  b$x2=relevel(b$x2,LETTERS[i])

  p=summary(lm(y~x1+x2,data=b))$coefficients[-(1:2),4]

  names(p)=substr(names(p),3,nchar(p))

  idx=which(p&gt;.05)

  mix=c(LETTERS[i],names(p)[idx])

  b$x2=recode(b$x2, paste("c('",paste(mix,collapse = "','"),"')='",paste(mix,collapse = "+"),"'",sep=""))

}}

最後的類別是：

table(b$x2)

A+I+H B+D+F   C+G     E     J

   46    82    35    23    14

使用以下回歸輸出：

summary(lm(y~x1+x2,data=b))

Coefficients:

            Estimate Std. Error t value Pr(&gt;|t|)

(Intercept)  0.86407    0.03950  21.877  &lt; 2e-16 ***

x1           1.99180    0.05323  37.417  &lt; 2e-16 ***

x2B+D+F     -0.21517    0.03699  -5.817 2.44e-08 ***

x2C+G       -0.50545    0.04528 -11.164  &lt; 2e-16 ***

x2E         -0.83617    0.05128 -16.305  &lt; 2e-16 ***

x2J         -0.68398    0.06131 -11.156  &lt; 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2008 on 194 degrees of freedom

Multiple R-squared:  0.8975,Adjusted R-squared:  0.8948

F-statistic: 339.6 on 5 and 194 DF,  p-value: &lt; 2.2e-16

AIC(lm(y~x1+x2,data=b))

[1] -66.76939

BIC(lm(y~x1+x2,data=b))

[1] -43.68117

這和我們以前的團隊是一致的。但實際上，如果我們改變順序，我們可以得到不同的組合。例如，如果我們從“J”到“A”，而不是“A”到“J”，我們得到：

for(i in nlevels(b$x2):1){

  #levels(b$x2)=LETTERS[1:10]

  if(LETTERS[i]%in%levels(b$x2)){

  b$x2=relevel(b$x2,LETTERS[i])

  p=summary(lm(y~x1+x2,data=b))$coefficients[-(1:2),4]

  names(p)=substr(names(p),3,nchar(p))

  idx=which(p&gt;.05)

  mix=c(LETTERS[i],names(p)[idx])

  b$x2=recode(b$x2, paste("c('",paste(mix,collapse = "','"),"')='",paste(mix,collapse = "+"),"'",sep=""))

}}

table(b$x2)

          E         G+C I+A+B+D+F+H           J

         23          35         128          14

這裡有不同的資訊標準：

AIC(lm(y~x1+x2,data=b))

[1] -36.61665

BIC(lm(y~x1+x2,data=b))

[1] -16.82675

我想有必要隨機執行我們通過這些級別的順序。最後，但同樣重要的是，我們可以使用迴歸樹。問題是，還有另一個解釋變數可能會插入。所以我建議(1)擬合一個線性模型

Image title

為了計算殘差，

Image title

(2)執行迴歸樹，解釋

Image title

使用範疇變數x_2(我解釋了樹是如何構建的，而解釋變數是以前的職位):

library(rpart)

library(rpart.plot)

b$e=residuals(lm(y~x1,data=b))

arbre=rpart(e~x2,data=b)

prp(arbre,type=2,extra=1)

觀察到葉子和我們得到的葉子是一樣的。

arbre

n= 200

node), split, n, deviance, yval

      * denotes terminal node

1) root 200 22.563500  7.771561e-18

  2) x2=G,C,J,E 72  4.441495 -3.232525e-01

    4) x2=J,E 37  1.553520 -4.578492e-01 *

    5) x2=G,C 35  1.509068 -1.809646e-01 *

  3) x2=I,A,H,F,B,D 128  6.366628  1.818295e-01

    6) x2=F,B,D 82  2.983381  1.048246e-01 *

    7) x2=I,A,H 46  2.030229  3.190993e-01 *

我想應該可以把所有這些放在一個R函式中，建議可能改進迴歸的水平組合。

R中因子水平的自動組合

每次我們在應用計量經濟學課程中面對實際應用時，我們都必須處理分類變數。同樣的問題也發生在學生身上：我們怎樣才能自動地結合因素水平呢？有簡單的R函式嗎？在過去的幾年裡，我確實上傳了一些部落格文章。但到目前為止沒有什麼令人滿意的。讓我寫下幾行關於可以做什麼的話。如果有人想寫一個很好的R函式，那就太

R語言中因子(factor)轉換成數值型(numeric)的問題

一直覺得只要是數字，不管是什麼型別的，都可以通過as.numeric()函式轉換為對應的numeric型別的數字，例如 x<-“123”，x為character型別，而as.numeric(x)則為numeric型別的123。但是因子(factor)型別

關於form表單中button按鈕自動提交問題

courier tex w3c line 自動提交 get style href span 坑:點擊確認按鈕,form表單提交2次,發送後臺2次請求　　 //錯誤代碼: <Button id="btnSubmit" name="btnSubmit" cla

Microsoft Office Word 中的公式自動編號

logs styles content ges 退格 lan con 自定義菜單 ati 先插入公式，#，插入題註（交叉引用），生成了標號。此時整個公式是題註樣式。在公式和標號之間插入一個樣式分隔符。 ___________________________________

在oracle中創建自動增長字段

lac 創建表測試 nocache ide char emp tab 技術分享參考http://www.cnblogs.com/jerrmy/archive/2013/03/13/2958352.html oracle在創建表時和其他的數據庫有點不一樣，如SQL SER

R中讀取文件，找不到路徑問題 No such file or directory

con tracking air csdn rac rect 路徑路徑和 data R中讀取文件，找不到路徑問題 No such file or directory 近日，讀取文件時。出現例如以下問題 > passenger = read.c

Mongo中，數組中的string 自動變成數字引起出錯

collect value 問題對象序列化 put convert 成了 mongo 發現遇到的問題：有個Message對象，其中有個字段叫 UseridList ，類型為 List<string> ，將Message對象序列化後，存入Mongo v

23css中的水平居中顯示標簽用法

nbsp utf-8 wid har oct txt 標題 text bsp <!doctype html> <html> <head> <meta charset="utf-8"> <title>無標題文檔&l

Linux中：mysql自動啟動

bin fig 鏈接 conf 自動啟動一個bug 沒有 rec sudo 檢查自啟動列表中有沒有mysql：chkconfig mysqld on ，有的話就執行：chkconfig mysqld on ，用這個命令設置自啟問題：在安裝mysql自啟時出現： /s

ionic2中如何使用自動生成器

sqli 功能速度 pes 方式 tool new app add ionic generator是命令行的功能，ionic2自動幫我們創建應用程序，從而節省了大量的時間，並增加我們的速度來開發一個項目的關鍵部分。 ionic generator使我們可以自動創建以下

Spring中類型自動裝配--byType

log ext setw println create cat ssp XML ret 在Spring中，“類型自動裝配”的意思是如果一個bean的數據類型與其它bean屬性的數據類型相同，將自動兼容裝配它。例如，一個“persion” bean 公開以“abili

在Spring中通過構造自動裝配--constructor

getname ted val lan 如果 create 構造方法 detect pub 在Spring中，可以使用“通過構造自動裝配”，實際上是按構造函數的參數類型自動裝配。這意味著，如果一個bean的數據類型與其他bean的構造器參數的數據類型是相同的，那麽將自動裝

Swing中支持自動換行的WrapLayout

vertica ancestor das ons blog ride prop app ember http://www.cnblogs.com/TLightSky/p/3482454.html —————&md

R 中數據導入

數據導入 mini mes 情況 cas lec server gin connect R語言數據導入數據導入 1、保存和加載R的數據(與R.data的交互：save()函數和load()函數) a <- 1:10 save(a, file = "data/dum

Makefile中常見的自動變量和含義

makefile info 自動 vmm var p s xms userinfo href 劫V3W71v9QGW貝膳http://jz.docin.com/cjwjy04096 1姥樸5KAQ訪顯39http://shufang.docin.com/fjqbs11

R中數據結構

方括號維度最大優先權回來生效組合示例取數進行任何數據分析的第一步：創建包含研究信息的數據集。在R中這個步驟包括以下兩步： 1. 選擇一種數據結構來存儲數據； 2. 將數據輸入或導入到這個數據結構中。一、數據集數據集通常是由數據構成的一個矩形數組，行

Delphi中如何實現模擬組合按鍵，如發送Ctrl+F的按鍵

action rtu parent tee log list popup blog 一個利用 keybd_event函數可實現，如下面的代碼用以實現在一個公共菜單中模擬Ctrl_F按鈕以調用DBGridEH的查找對話框功能：這是在一個ActionList中的某一Actio

R中利用apply、tapply、lapply、sapply、mapply、table等函數進行分組統計--轉載

tor ant 變換 true post 1.0 指定 ntile lec apply() apply（m，dimcode，f，fargs） m 是一個矩陣。 dimcode是維度編號，取1則為對行應用函數，取2則為對列運用函數。 f是函數 fargs是f的可選參數集

在Eclipse中設置自動生成javadoc註釋

eth ram ref pos 分享圖片 pes ron bubuko methods 1)windows-->preference-->Java-->Code Style-->Code Templates-->code-->new Ja

Intellij IDEA中mybatis-generator自動生成

div file cto pack 返回 package numeric ret color 一、在maven工程中的resource中創建generatorConfig.xml 二、配置generatorConfig.xml: <?xml version="1.

R中因子水平的自動組合

相關推薦