1. 程式人生 > >啞變數處理

啞變數處理

dummyVars(formula, data, sep = “.”, levelsOnly = FALSE, fullRank = FALSE, …)
sep:因子變數名及其級別之間的可選分隔符。使用sep = NULL表示沒有分隔符(即模型的正常行為)。

data4 <- read.csv("玩家玩牌資料.csv")
head(data4)
library(VIM)
aggr(data4,prop=FALSE,numbers = TRUE)

在這裡插入圖片描述
在這裡插入圖片描述

library(mice)
md.pattern(data4)

在這裡插入圖片描述
在這裡插入圖片描述

data4 <- data4[complete.cases(data4),]
md.pattern(data4)
data4$性別 <- as.factor(data4$性別)
data4$是否付費 <- as.factor(data4$是否付費)
library(caret)
str(data4)

在這裡插入圖片描述

dmy <- dummyVars(~.,data = data4)
trsf <- data.frame(predict(dmy,newdata = data4))
head(trsf)
colnames(trsf)[c(2,3,12,13)] <- c("女","男","沒付費","付費")
sum(trsf$女)
range(data4$站內好友數)
data5 <- data4[data4$站內好友數<5,]
data5$站內好友數 <- as.factor(data5$站內好友數)#,)
dym.haoyou <- dummyVars(~站內好友數,data5)
trsf.haoyou <- data.frame(predict(dym.haoyou,data5))
head(trsf.haoyou)

在這裡插入圖片描述