R語言-基本數據管理

阿新 • • 發佈：2018-02-10

tac math row 日期類由於 format tile 格式轉換運算

目的:學會對原始的數據集進行整理(日期,缺失值,變量創建等),然後通過修改後的數據集可以更有針對性的來分析數據

案例:分析男性和女性經理人在領導自己企業的不同

　　問題:1.處於管理崗的男性和女性在服從上級的程度上是否有所不同

　　　　 2.導致不同的原因是因為性別還是國家,或者是年齡

　1.準備數據集

 1 manager <- c(1,2,3,4,5)
 2 date <- c(‘10/24/08‘,‘10/28/08‘,‘10/1/28‘,‘10/12/08‘,‘5/1/09‘)
 3 country <- c(‘US‘,‘US‘,‘UK‘,‘UK‘,‘UK‘)
 4 gender <- c(‘M 
‘,‘F‘,‘F‘,‘M‘,‘F‘)
 5 age <- c(32,45,25,39,99)
 6 q1 <- c(5,3,3,3,2)
 7 q2 <- c(4,5,5,3,2)
 8 q3 <- c(5,2,5,4,1)
 9 q4 <- c(5,5,5,NA,2)
10 q5 <- c(5,5,2,NA,1)
11 leadship <- data.frame(manager,date,country,gender,age,q1,q2,q3,q4,q5.stringAsFactors=F)

2.修正異常數據

1 leadship <- within(leadship,{
 
2                           agecat <- NA
3                           agecat[age>75 & age < 99] <- ‘Elder‘
4                           agecat[age>= 55 & age <= 75] <- ‘Middle Age‘
5                           agecat[age < 55] <- ‘Young‘})

# 1.創建新的變量
# 2.將該變量綁定到數據集上
# 3.將新變量做條件篩選,如果age大於75歲表示值錯誤,用NA值進行填

3.修改列明

1 # 1.使用代碼修改
2 names(leadship[6:10]) <- c(‘item1‘,‘item2‘,‘item3‘,‘itgem4‘,‘item5‘)
3 
4 # 2.使用對話框修改
5 fix(leadship)

4.去掉NA值的數據行

1 newdata <- na.omit(leadship)

5.日期格式轉換

1 # 1.設置日期格式
2 # 2.將該字段轉換為日期類型
3 myformat <- ‘%m-%d-%y‘
4 leadship$date <- as.Date(leadship$date,myformat)

6.排序

1 # 1.使用order(字段名)進行排序,默認是升序,加-就是降序
2 attach(leadship)
3 newdata <- leadship[order(gender,-age)]
4 detach(leadship)

7.剔除變量

1 # 1.進行條件篩選,篩選出需要剔除的字段
2 # 2.將操作後的數據集重新賦值
3 myvars <- names(leadship) %in% c(‘q3‘,‘q4‘)
4 newdata <- leadship[!myvars]

8.條件篩選

1 # 1.選擇所有age大於等於35或者小於24的行,保留變量q1~q4
2 # 2.選擇所有25歲以上的男性,並保留gender到q4的所有列
3 newdata <- subset(leadship,age>=35 | age < 24,select = c(q1,q2,q3,q4))
4 
5 newdata <- subset(leadship,gender=‘M‘ & age > 25,select = gender:q4)

9.隨機抽樣

1 # 從數據集中隨機抽取出3行數據
2 mysample <- leadship[sample(1:nrow(leadship),3,replace = F),]

10.使用SQL操作數據集

library(sqldf)
newdf <- sqldf(‘select * from mtcars where carb=1 order by mpg‘,row.names = T)
sqldf(‘select avg(mpg) as avg_mpg,avg(disp) as avg_disp,gear from mtcars where cyl in (4,6) group by gear‘ )

案例2:一組學生參加了科學,數學,英語的考試,為了衡量學生的統一考試水平,前20%的學生為A,接下來20%的學生為B,以此類推,最後按照字母對學生進行排序

1.準備數據

1 options(digits = 2)
2 Student <- c(‘John Davis‘,‘Angela Williams‘,‘Bullwinkle Moose‘,‘David Jones‘,
3              ‘Janice Markhammer‘,‘Cheryl Cushing‘,‘Reuven Ytzrhak‘,‘Greg Knox‘,
4              ‘Joel England‘,‘Mary Rayburn‘)
5 Math <- c(502,600,412,358,495,512,410,625,573,522)
6 Science <- c(95,99,80,82,75,85,80,95,89,86)
7 English <- c(25,22,18,15,20,28,15,30,27,18)
8 roster <- data.frame(Student,Math,Science,English,stringsAsFactors = F)

2.轉換考試成績

# 由於每門課程的得分不一致,所以將所有的成績計算標準差來實現標準化
z <- scale(roster[,2:4])

3.計算成績標準差的平均值

# 1.通過mean計算每行的平均值
# 2.使用cbind添加到數據集中
score <- apply(z, 1, mean)
roster <- cbind(roster,score)

4.劃分等級(A,B,C,D,F)

1 y <- quantile(score,c(.8,.6,.4,.2))

5.根據百分位運算符,創建新的變量等級

1 roster$grade[score >= y[1]] <- ‘A‘
2 roster$grade[score < y[1] & score >= y[2]] <- ‘B‘
3 roster$grade[score < y[2] & score >= y[3]] <- ‘C‘
4 roster$grade[score < y[3] & score >= y[4]] <- ‘D‘
5 roster$grade[score < y[4]] <- ‘F‘

6.把學生的姓名拆分成FirstName和LastName

# 1.將該變量以空格的形式進行拆分
# 2.獲取第二個元素為LastName,第一個元素是FirstName
# 3.將這兩項組合到數據集中,並丟棄原始的姓名
name <- strsplit((roster$Student),‘ ‘)
Lastname <- sapply(name, ‘[‘,2)
Firstname <- sapply(name, ‘[‘,1)
roster <- cbind(Firstname,Lastname,roster[,-1])

7.根據FirstName和LastName排序

roster <- roster[order(Firstname,Lastname),]

8.使用自定義函數(實現描述性統計量的計算)

 1 mystats <- function(x,parametric=T,print=F){
 2   if(parametric){
 3     center <- mean(x);spread <- sd(x)
 4   }
 5   else{
 6     center <- median(x);spread <- max(x)
 7   }
 8   if(print & parametric){
 9     cat(‘Mean=‘,center,‘\n‘,‘SD=‘,spread,‘\n‘)
10   }
11   else if(print & !parametric){
12     cat(‘Median=‘,center,‘\n‘,‘MAD=‘,spread,‘\n‘)
13   }
14   result <- list(center=center,spread=spread)
15   return (result)
16 }

1 # 1.生成服從正態分布的500的隨機樣本
2 # 2.執行語句,獲取y$center和y$spread的值
3 set.seed(1234)
4 x <- rnorm(500)
5 y <- mystats(x)

# 1.或者獲取中位數和mad的值
y <- mystats(x,parametric = F,print = T)

9.switch語句的實現

 1 mydate <- function(type=‘long‘){
 2   switch (type,
 3     long = format(Sys.time(),‘%A %B %d %Y‘),
 4     short = format(Sys.time(),‘%m-%d-%y‘),
 5     cat(type,‘is not a recognized type\n‘)
 6   )
 7 }
 8 
 9 # 1.默認調用type為long的參數
10 # 2.如果傳short則調用short格式
11 # 3.否則輸出錯誤信息
12 mydate(‘long‘)
13 mydate(‘short‘)

10.整合數據

1 # 使用aggregate整合數據,第一個參數是數據集,第二個參數是要整合的列,第三個參數是使用什麽函數進行行數據處理
2 options(digits = 3)
3 attach(mtcars)
4 aggdata <- aggregate(mtcars,by = list(cyl,gear),FUN = ‘mean‘,na.rm=T)
5 aggdata
6 detach(mtcars)

R語言-基本數據管理

tac math row 日期類由於 format tile 格式轉換運算目的:學會對原始的數據集進行整理(日期,缺失值,變量創建等),然後通過修改後的數據集可以更有針對性的來分析數據案例:分析男性和女性經理人在領導自己企業的不同　　問題:1.處於管理崗的男性和女

R語言實戰 - 基本數據管理（3）

cat taf str logs 合並 exc number country lob 8. 數據排序 > leadership$age [1] 32 45 25 39 NA > newdata <- leadership[order(leadership

[讀書筆記] R語言實戰（四）基本數據管理

mean 圖片數值函數 nbsp 一個 img order 分享 1. 創建新的變量 mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8)) #方法一 mydata$sumx<-mydata$x1+mydat

R語言重要數據集分析研究——搞清數據的由來

pan .cn logs ges 語言 lang -1 r語 tex 搞清數據的由來作者：李雪麗資料來源：百度百科 R語言重要數據集分析研究——搞清數據的由來

R語言之數據處理常用包

ble 2.6 ram ota 等於 sun desc ext cal dplyr包是Hadley Wickham的新作，主要用於數據清洗和整理，該包專註dataframe數據格式，從而大幅提高了數據處理速度，並且提供了與其它數據庫的接口；tidyr包的作者是Hadley

C語言基本數據類型

ansi 字符數組敏捷圓周率一個力量 regular 我們 AR C語言基本數據類型在我們玩遊戲的時候，遊戲中的角色是有類型的，有敏捷型、力量型、法術型等等。同樣C語言中的數據也是有類型的，C語言中，數據類型可分為：基本數據類型，構造數據類型，指針類型，

R語言外部數據讀取

必須 uci tom bsp false line 16px 出現 true 0 引言　　使用R語言、Python等進行數據處理的第一步就是要導入數據（也可以使用UCI數據集），下文主要根據R語言的幫助文檔來介紹外部文件數據的導入方法和註意事項。 1 格式read.t

c語言基本數據類型（short、int、long、char、float、double）

current min max 而是 over c語言常用限定符除了一 C 語言包含的數據類型 short、int、long、char、float、double 這六個關鍵字代表C 語言裏的六種基本數據類型。在不同的系統上，這些類型占據的字節長度是不

2-7 R語言基礎數據框

score col true data gen matrix frame [1] 基礎 #數據框 > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALS

R語言實戰-數據類型-2（數據框dataframe）

ram win fault erro frame rem 同時 default 個數 5、數據框dataframe data.frame 創建 data.frame() 1 > a<-c(1,2,3,4,5) 2 > b<-c

Cocos2d-x 腳本語言Lua基本數據結構-表(table)

air align ogr ont .org java 都是鏈表地址 Cocos2d-x 腳本語言Lua基本數據結構-表(table) table是Lua中唯一的數據結構。其它語言所提供的數據結構，如：arrays、records、lists、queues、sets等

蘋果新的編程語言 Swift 語言進階（二）－－基本數據類型

保持 popu 多條語句常量 num access 對象程序進制一、常量和變量 Swift語言對常量和變量的聲明進行了明白的區分 Swift語言的常量類型比C 語言的co

Go語言備忘錄：基本數據結構

備忘錄結構體參考映射 pac 語言學習筆記 spa 常量本文內容是本人對Go語言的變量、常量、數組、切片、映射、結構體的備忘錄，記錄了關鍵的相關知識點，以供翻查。文中如有錯誤的地方請大家指出，以免誤導！轉摘本文也請註明出處：Go語言備忘錄：基本數據結構，多謝！

C語言深度剖析 -- 第一課基本數據類型

中一 eof bsp div pri style pre short 一段第一課 -- 基本數據類型分析任何編程語言，它都要操作存在內存中的數據，變量的本質是內存中一段數據空間的別名 1 #include <stdlib.h>

C語言第三講,基本數據類型

cin 高級就是最小 pan 類型值範圍 text post 　　　　　　　　C語言第三講,基本數據類型一丶基本數據類型講解在C語言當中,有四種基本數據類型分別是: 整形浮點型指針聚合類型(數組和結構) 整型家族包括: 字符短整型整形長整型

Python3.X全棧-Day09-Python語言介紹、變量、基本數據類型及while循環

文件路徑擁有方向數據讀取機器字母直接方式 01 python全棧s3 day9 Python開發系列課程概要 02 python全棧s3 day9 Python作業要求以及博客 03 python全棧s3 day9 編程語言介紹 04 python全

go語言學習十七 - 基本數據類型

sof aci user aps 類型基本數據類型 width 語言學數據 go數據類型 java數據類型說明 byte - 等同於 uint8 int int or long 32位或64位取決於平臺 i

Go語言2-基本數據類型和操作符

包含 imp define 符號全局變量參數技術中文如何主要內容：文件名、關鍵字、標識符 Go程序的基本結構常量和變量數據類型和操作符字符串類型文件名、關鍵字、標識符所有go源碼以.go結尾標識符以字母或下劃線開頭，大小寫敏感_是特殊標識符，用來

R語言基本資料管理

建立新變數並整合到原來的資料框中： my_data <- transform(my_data, sum_x = x1 + x2, mean_x = (x1 + x2)/2) 變數的重編碼： lead

c語言基礎——基本數據類型

字符類型技術分享 asc 整型基礎長度 8bit 數據 1、基本數據類型是什麽？包括有哪些代表？除了基本數據類型還有什麽其他類型形式？（1）基本數據類型——用於描述基本的數據（數、日期等）（2）有整型、實型、字符型、枚舉類型等等　　=============

R語言-基本數據管理

相關推薦