啞變數處理
阿新 • • 發佈:2018-12-08
dummyVars(formula, data, sep = “.”, levelsOnly = FALSE, fullRank = FALSE, …)
sep:因子變數名及其級別之間的可選分隔符。使用sep = NULL表示沒有分隔符(即模型的正常行為)。
data4 <- read.csv("玩家玩牌資料.csv")
head(data4)
library(VIM)
aggr(data4,prop=FALSE,numbers = TRUE)
library(mice)
md.pattern(data4)
data4 <- data4[complete.cases(data4),] md.pattern(data4) data4$性別 <- as.factor(data4$性別) data4$是否付費 <- as.factor(data4$是否付費) library(caret) str(data4)
dmy <- dummyVars(~.,data = data4)
trsf <- data.frame(predict(dmy,newdata = data4))
head(trsf)
colnames(trsf)[c(2,3,12,13)] <- c("女","男","沒付費","付費")
sum(trsf$女)
range(data4$站內好友數) data5 <- data4[data4$站內好友數<5,] data5$站內好友數 <- as.factor(data5$站內好友數)#,) dym.haoyou <- dummyVars(~站內好友數,data5) trsf.haoyou <- data.frame(predict(dym.haoyou,data5)) head(trsf.haoyou)