R語言data.table簡介

阿新 • • 發佈：2019-01-26

data.table包提供了一個非常簡潔的通用格式：DT[i,j,by]，可以理解為：對於資料集DT，選取子集行i,通過by分組計算j，對比與dplyr等包，data.table的執行速度更快。

建立一個data.table

set.seed(1)
DF = data.frame(x=c("b","b","b","a","a"),v=rnorm(5))
DF
##   x          v
## 1 b -0.6264538
## 2 b  0.1836433
## 3 b -0.8356286
## 4 a  1.5952808
## 5 a  0.3295078

這跟data.frame的建立是一樣的

DT = data.table(x=c("b","b","b","a","a"),v=rnorm(5))
DT
##    x          v
## 1: b -0.8204684
## 2: b  0.4874291
## 3: b  0.7383247
## 4: a  0.5757814
## 5: a -0.3053884

或者可以直接將data.frame轉換為data.table型別

CARS = data.table(cars)
head(CARS)
##    speed dist
## 1:     4    2
## 2:     4   10
## 3:     7    4 

## 4:     7   22
## 5:     8   16
## 6:     9   10

我們可以使用tables()函式檢視所有在記憶體的data.table

tables()
##      NAME NROW NCOL MB COLS       KEY
## [1,] CARS   50    2  1 speed,dist    
## [2,] DT      5    2  1 x,v           
## Total: 2MB

1. Keys

Keys在data.table中是一個重要的概念，在一個data.table中只能設定一個key，但是這一個key可以包含多個列。當我們設定好key後，data.table會將資料按照key來排序。

DT[2,] #取第2行
##    x         v
## 1: b 0.4874291
DT[x=="b",] #取x=b的行
##    x          v
## 1: b -0.8204684
## 2: b  0.4874291
## 3: b  0.7383247
cat(try(DT["b",],silent=TRUE)) 
## Error in `[.data.table`(DT, "b", ) : 
##   When i is a data.table (or character vector), x must be keyed (i.e. sorted, and, marked as sorted) so data.table knows which columns to join to and take advantage of x being sorted. Call setkey(x,...) first, see ?setkey.

當沒有設定key時，DT[“b”]操作會報以上錯誤，我們可以用setkey() 給DT設定key

setkey(DT,x)
DT["b",]
DT["b"] #更簡潔的寫法
##    x          v
## 1: b -0.8204684
## 2: b  0.4874291
## 3: b  0.7383247

預設情況下會返回該分組的所有元素mult='all'，但是如果我們想要其他結果，比如返回第一個元素，或返回最後一個元素

DT["b",mult="first"]
##    x          v
## 1: b -0.8204684
DT["b",mult="last"]
##    x         v
## 1: b 0.7383247

接下下我們建立一個1000萬行的資料，用來演示data.table的效能

grpsize = ceiling(1e7/26^2) # 10 million rows, 676 groups
tt=system.time( DF <- data.frame(
 x=rep(LETTERS,each=26*grpsize),
 y=rep(letters,each=grpsize),
 v=runif(grpsize*26^2),
 stringsAsFactors=FALSE)
 )
head(DF,3)
##   x y         v
## 1 A a 0.9347052
## 2 A a 0.2121425
## 3 A a 0.6516738
tail(DF,3)
##          x y         v
## 10000066 Z z 0.9537745
## 10000067 Z z 0.6654964
## 10000068 Z z 0.9368095
dim(DF)
## [1] 10000068        3

我們試試將DF中x為“R”的行與y為”h”的行提取出來

system.time(ans1 <- DF[DF$x=="R" & DF$y=="h",])
##    user  system elapsed 
##    1.35    0.07    1.42
head(ans1,3)
##         x y         v
## 6642058 R h 0.2442074
## 6642059 R h 0.6491902
## 6642060 R h 0.5894140

我們使用data.table做相同的操作：

DT = as.data.table(DF)
system.time(setkey(DT,x,y))
##    user  system elapsed 
##    0.13    0.01    0.14
system.time(ans2 <- DT[list("R","h")])
##    user  system elapsed 
##    0.02    0.00    0.02

可以看到，當我們設定好key後，提取行的操作基本不需要等待時間，比我們平時用的操作快了100倍。要注意的是，如果使用”==”操作符，那麼它會掃描整個陣列，雖然data.table用這種方法也可以提取，但很慢，要儘量避免。

system.time(ans1 <- DT[x=="R" & y=="h"]) # works but is using data.table badly
##    user  system elapsed 
##    1.06    0.00    1.06

2. 快速聚合(fast grouping)

接下來我們要介紹data.table的第二個引數

DT[,sum(v)]
## [1] 4999770
head(DT[,sum(v),by=x])
##     x       V1
##  1: A 192270.6
##  2: B 192261.3
##  3: C 192292.2
##  4: D 191924.2
##  5: E 192457.3
##  6: F 192240.2

以上程式碼以x為分組，依次呼叫sum函式，統計了每個分組x的總和。顯然這一功能在plyr包和dplyr包也有相對應的函式實現，接下來我們比較一下這3個包的速度。

#plyr包
system.time(
  ddply(DF,.(x),function(x)sum(x$v))
  )
##    user  system elapsed 
##    1.71    0.22    1.94
#dplyr包
system.time({
  DF%>%
  group_by(x)%>%
  summarise(sum(v))
})
##    user  system elapsed 
##    0.60    0.12    0.72
#data.table包
DT = as.data.table(DF)
system.time({
DT[,sum(v),by=x]
})
##    user  system elapsed 
##    0.12    0.02    0.14

從以上結果中很明顯看到data.table遠遠快於dplyr和plyr包

3. 快速連線

使用DT[X]，該操作會將X中key(沒指定key則預設第一列)與DT的key作連線，同理，X[DT]會將DT與X作連線

DT = data.table(x=rep(c("a","b","c"),each=3), y=c(1,3,6), v=1:9)
DT
##    x y v
## 1: a 1 1
## 2: a 3 2
## 3: a 6 3
## 4: b 1 4
## 5: b 3 5
## 6: b 6 6
## 7: c 1 7
## 8: c 3 8
## 9: c 6 9
X = data.table(c("b","c"),foo=c(4,2))
X
##    V1 foo
## 1:  b   4
## 2:  c   2
setkey(DT,x)
DT[X]
##    x y v foo
## 1: b 1 4   4
## 2: b 3 5   4
## 3: b 6 6   4
## 4: c 1 7   2
## 5: c 3 8   2
## 6: c 6 9   2
setkey(X,V1)
X[DT]
##    V1 foo y v
## 1:  a  NA 1 1
## 2:  a  NA 3 2
## 3:  a  NA 6 3
## 4:  b   4 1 4
## 5:  b   4 3 5
## 6:  b   4 6 6
## 7:  c   2 1 7
## 8:  c   2 3 8
## 9:  c   2 6 9

我們也可以使用on操作來連線兩個相同的列：

DT = data.table(x=rep(c("a","b","c"),each=3), y=c(1,3,6), v=1:9)
X = data.table(x=c("b","c"),foo=c(4,2))
DT[X, on="x"] # join on columns 'x'
##    x y v foo
## 1: b 1 4   4
## 2: b 3 5   4
## 3: b 6 6   4
## 4: c 1 7   2
## 5: c 3 8   2
## 6: c 6 9   2

我們也可以使用data.table中的merge函式

(dt1 <- data.table(A = letters[1:10], X = 1:10, key = "A"))
##     A  X
##  1: a  1
##  2: b  2
##  3: c  3
##  4: d  4
##  5: e  5
##  6: f  6
##  7: g  7
##  8: h  8
##  9: i  9
## 10: j 10
(dt2 <- data.table(A = letters[5:14], Y = 1:10, key = "A"))
##     A  Y
##  1: e  1
##  2: f  2
##  3: g  3
##  4: h  4
##  5: i  5
##  6: j  6
##  7: k  7
##  8: l  8
##  9: m  9
## 10: n 10
merge(dt1, dt2)
##    A  X Y
## 1: e  5 1
## 2: f  6 2
## 3: g  7 3
## 4: h  8 4
## 5: i  9 5
## 6: j 10 6

作為分享主義者(sharism)，本人所有網際網路釋出的圖文均遵從CC版權，轉載請保留作者資訊並註明作者a358463121專欄:http://blog.csdn.net/a358463121，如果涉及原始碼請註明GitHub地址：https://github.com/358463121/。商業使用請聯絡作者。

R語言data.table簡介

data.table包提供了一個非常簡潔的通用格式：DT[i,j,by]，可以理解為：對於資料集DT，選取子集行i,通過by分組計算j，對比與dplyr等包，data.table的執行速度更快。建立一個data.table set.seed(1)

R語言data.table速查手冊

介紹 R中的data.table包提供了一個data.frame的高階版本，讓你的程式做資料整型的運算速度大大的增加。data.table已經在金融，基因工程學等領域大放光彩。他尤其適合那些需要處理大型資料集（比如 1GB 到100GB）需要在記憶體中處理資料

R語言Data Frame數據框常用操作

library union merge 自增 date類型多個 pri t對象 enc Data Frame一般被翻譯為數據框，感覺就像是R中的表，由行和列組成，與Matrix不同的是，每個列可以是不同的數據類型，而Matrix是必須相同的。 Data Frame每一列

R語言Data Frame資料框常用操作

Data Frame一般被翻譯為資料框，感覺就像是R中的表，由行和列組成，與Matrix不同的是，每個列可以是不同的資料型別，而Matrix是必須相同的。 Data Frame每一列有列名，每一行也可以指定行名。如果不指定行名，那麼就是從1開始自增的Sequence來標

統計學基礎與R語言----1（簡介與一些R函式介紹）

最近在看一些機器學習的書，想起自己以前學的R和統計學，感覺以前都是囫圇吞棗，沒有搞清楚。現在重新把以前的書拿出來讀一讀，並把程式碼再敲一遍，感覺收穫還是蠻多的。 1.1 我的參考書籍 R語言學習書籍:資料探勘與R語言統計學：R語言與統計分析 1.2 程式設計環境

R語言學習筆記（十七）：data.table包中melt與dcast函數的使用

eas table variable mil pat efault ast 函數 pre melt函數可以將寬數據轉化為長數據 dcast函數可以將長數據轉化為寬數據 > DT = fread("melt_default.csv") > DT

【R語言】data.frame與data.table的效能比較

測試案例說明總資料量為6000條。平均的分佈在20個data.frame/data.table變數中。這20個變數儲存在list中，以1:20表示。將20個變數合併成一個。資料格式一致。用d

【R語言】合併行操作中data.frame與data.table的效能比較

測試案例說明總資料量為M*N條。平均的分佈在N個data.frame/data.table變數中，每個變數為M行。這N個變數儲存在list中，以1:N表示。list(data.frame)與list(data.table)。將N個變數合併成一個。 N個

R語言簡介

nbsp 函數 .cn 一點 csv ips 自帶關系加載概況： R是統計領域廣泛使用的誕生於1980年左右的S語言的一個分支。可以認為R是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和作圖的解釋型語言。作為一種統計分析

R語言ggplot2 簡介

映射種類類型 com frame 分享基礎 poi color ggplot2是一個繪制可視化圖形的R包，汲取了R語言基礎繪圖系統(graphics) 和l attice包的優點，摒棄了相關的缺點，創造出來的一套獨立的繪圖系統； ggplot2 有以下幾個特點： 1）

代寫數據結構C語言代寫、代寫順序表、鏈表C/C++編程作業、代寫C/C++Data Structures、代寫R語言編程作業

which atom stl boolean add debug buffer lean word COMP20003 Algorithms and Data StructuresSecond (Spring) Semester 2018[Assignment 1]Olym

R語言統計入門課程推薦——生物科學中的資料分析Data Analysis for the Life Sciences

Data Analysis for the Life Sciences是哈佛大學PH525x系列課程——生物醫學中的資料分析(PH525x series - Biomedical Data Science )，課程全部採用R語言進行統計分析理論教學與實戰。教材採用Rmarkdo

機器學習演算法簡介和程式碼（P&R語言）

機器學習演算法，P&R語言一般說來，機器學習有三種演算法： 1. 監督式學習監督式學習演算法包括一個目標變數（因變數）和用來預測目標變數的預測變數（自變數）。通過這些變數我們可以搭建一個模型，從而對於一個已知的預測變數值，我們可以得到對應的目標變數值。重複訓練這

R語言學習筆記之set.seed()函式與table函式

set.seed(123)函式，此函式作用是為了，但你需要使用隨機數時，可保證你在執行或者除錯後，計算機所創造的隨機數保持不變。換句話說，如果使用隨機函式rnorm(10)之類的函式，每次執行後，結果都是不一樣的，如果再次之前使用set.seed()函式，則會保證測試資料保持

R語言文摘：Subsetting Data

原文地址：https://www.statmethods.net/management/subset.html R has powerful indexing features for accessing object elements. These features can be used

R語言讀CSV、txt檔案方式以及read.table read.csv 和readr（大資料讀取包）

首先準備測試資料*(mtcars)分別為CSV. TXT 歡迎加入Python快速進階QQ群：867300100 R語言資料分析案例：直通車 read.table 預設形式讀取CSV（×）與TXT(效果理想) ① > test<-read.t

R︱高效資料操作——data.table包（實戰心得、dplyr對比、key靈活用法、資料合併）

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~——————————————————————————— 由於業務中接觸的資料量很大，於是不得不轉戰開始尋求資料操作的效率。於是，data.table這個包就可以很好的滿足

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

補上第四周筆記，以及本次課程總結。第四周課程主要針對text進行處理。裡面包括 1.變數名的處理 2.正則表示式 3.日期處理（參見swirl lubridate包練習）首先，變數名的處理，奉行兩個原則，1）統一大小寫tolower/toupper；2）去掉在匯入資料時，因為特殊字元導致的合併變

R語言讀取資料（Practical Data Science with R 第二章）

1、用R語言讀取檔案中的資料 1.1、用R語言讀取結構化資料以University of California Irvine Machine Learning Repository (http://archive.ics.uci.edu/ml/)的car資料為例： u

R語言學習筆記 —— table 函式的應用

一、table 函式對應的就是統計學中的列聯表，是一種記錄頻數的方法，對於統計來說有非常重要的應用，下面的例子都是針對維數為2的情況舉例，多維的情況是類似的下面看一個例子： > ct <- data.frame( + Vote.for.X =

R語言data.table簡介

建立一個data.table

1. Keys

2. 快速聚合(fast grouping)

3. 快速連線

相關推薦