R語言—因子
阿新 • • 發佈:2019-01-01
一.介紹
類比:性別:男、女
年紀:一年級、二年級、三年級
二.基本語法
factor(x=character(),levels,labels=levels,exclude=NA,order=is.ordered(x),nmax=NA)
levels:用來指定因子可能的水平(預設值是向量x中互異的值)
labels:用來指定水平的名字
exclude:表示從向量x中剔除的水平值
1)
因子為 A B C
2)
指定因子是 A B,C的地方顯示空,因子只有A B
3)
指定因子代表的名字
4)
剔除某一因子
三.建立因子
colour<-c('G','G','R','Y','Y','R')
col<-factor(colour)
colour是字串型別,col是因子型別
col<-factor(colour,labels = c('green','red','yellow'))
指定因子名字
as.vector 轉化為向量
ps:
當調換因子型資料的取值水平(levels)或字元標籤(labels)時,所得向量取值發生相應變化,即levels與labels有對應關係成立,但當不對levels或labels進行設定時,各個字元的數字程式碼則按照字母表順序從1開始依此取值,如:
因子型資料不可進行數值運算
轉換為數值型資料後可參與運算
四.有序因子
1.ordered()
2.cut()函式
分組後,每個數值以組的形式出現
五.常用函式
tapply()
根據gender分組求age的平均值