R語言data.table速查手冊

阿新 • • 發佈：2019-01-22

介紹

R中的data.table包提供了一個data.frame的高階版本，讓你的程式做資料整型的運算速度大大的增加。data.table已經在金融，基因工程學等領域大放光彩。他尤其適合那些需要處理大型資料集（比如 1GB 到100GB）需要在記憶體中處理資料的人。不過這個包的一些符號並不是很容易掌握，因為這些操作方式在R中比較少見。這也是這篇文章的目的，為了給大家提供一個速查的手冊。

data.table的通用格式: DT[i, j, by]，對於資料集DT，選取子集行i,通過by分組計算j

1.生成一個data.table物件

生成一個data.table物件，記為DT.

> library 
(data.table)
> set.seed(45L)
> DT <- data.table(V1=c(1L,2L),
+ V2=LETTERS[1:3],
+ V3=round(rnorm(4),4),
+ V4=1:12)
> DT
V1 V2 V3 V4
1: 1 A -1.1727 1
2: 2 B -0.3825 2
3: 1 C -1.0604 3
4: 2 A 0.6651 4
5: 1 B -1.1727 5
6: 2 C -0.3825 6
7: 1 A -1.0604 7
8: 2 B 0.6651 8
9: 1 C -1.1727 9
10: 2 A -0.3825 
 10
11: 1 B -1.0604 11
12: 2 C 0.6651 12

2.通過i來篩選資料集的行

通過數字來篩選資料集的行

選取第三行到第五行

> DT[3:5,] #or DT[3:5]
V1 V2 V3 V4
1: 1 C -1.0604 3
2: 2 A 0.6651 4
3: 1 B -1.1727 5

基於使用快速自動索引條件，使用列名選擇行i

在V2這一列，選擇所有值為A的行

> DT[ V2 == "A"]
V1 V2 V3 V4
1: 1 A -1.1727 1
2: 2 A 0.6651 4
3: 1 A -1.0604 7
4: 2 A -0.3825 
 10

選擇多個值:

選擇在這一列中包含value1或value2的所有值

> DT[column %in% c("value1","value2")]

選擇V2這列中包含值A或C的所有行

> DT[ V2 %in% c("A","C")]
V1 V2      V3 V4
1:  1  A  0.3408  1
2:  2  A -0.7460  4
3:  1  A -0.3795  7
4:  2  A -0.7033 10
5:  1  C -0.3795  3
6:  2  C -0.7033  6
7:  1  C  0.3408  9
8:  2  C -0.7460 12

3.通過j來操作列

通過j來選擇一列

> DT[,V2]
[1]"A" "A" "A" "A" "B" "B" "B" "B" "C" "C" "C" "C"

注意到V2這一列是以向量的形式返回的

通過j來選擇多列

> DT[,.(V2,V3)]
    V2      V3
 1:  A  0.3408
 2:  A -0.7460
 3:  A -0.3795
 4:  A -0.7033
 5:  B -0.7033
 6:  B  0.3408
 7:  B -0.7460
 8:  B -0.3795
 9:  C -0.3795
10:  C -0.7033
11:  C  0.3408
12:  C -0.7460

V2與V3這兩列以data.table的形式返回

.()為list()的一個別名。如果使用.(),返回的為一個data.table物件。如果不使用.()，結果為返回一個向量。

在j上呼叫函式

> DT[,sum(V1)]
[1] 18

以向量的形式返回V1列中所有元素的總和

在多列上進行計算

以data.table的形式，返回V1這列的所有元素之和與V3這列的標準差

> DT[,.(sum(V1),sd(V3))]
   V1        V2
1: 18 0.4546055

指定計算列的列名

類似上例，但有一個新的列名

> DT[,.(Aggregate = sum(V1), Sd.V3 = sd(V3))]
   Aggregate     Sd.V3
1:        18 0.4546055

若列的長度不一，則會迴圈對齊

選擇V1這一列，並計算V3這列的標準差，將會得到一個標準差的值並迴圈補齊

> DT[,.(V1, Sd.V3 = sd(V3))]
 V1     Sd.V3
 1:  1 0.4546055
 2:  2 0.4546055
 3:  1 0.4546055
 4:  2 0.4546055
 5:  2 0.4546055
 6:  1 0.4546055
 7:  2 0.4546055
 8:  1 0.4546055
 9:  1 0.4546055
10:  2 0.4546055
11:  1 0.4546055
12:  2 0.4546055

多個表示式可以包裹在花括號中

輸出V2這一列並繪製V3這一列

> DT[,{print(V2)
plot(V3)
NULL}]
[1] "A" "A" "A" "A" "B" "B" "B" "B" "C" "C" "C" "C"
#And a plot
NULL

4.根據分組來操作j

根據分組來操作j

對V1中的每一類來計算V4列的和

> DT[,.(V4.Sum = sum(V4)),by=V1]
   V1 V4.Sum
1:  1     36
2:  2     42

通過使用.()控制多個列來操作j

與上例類似，但每一個分組包含V1和V2兩列

> DT[,.(V4.Sum = sum(V4)),by=.(V1,V2)]
   V1 V2 V4.Sum
1:  1  A      8
2:  2  A     14
3:  2  B     10
4:  1  B     16
5:  1  C     12
6:  2  C     18

在by中呼叫函式

以sign(V1-1)為分組，計算各個分組中V4列的和:

> DT[,.(V4.Sum = sum(V4)),by=sign(V1-1)]
   sign V4.Sum
1:    0     36
2:    1     42

通過指定i行子集的分組進行操作

在前5行資料集中，通過V1列的分組來計算V4列的總和:

> DT[1:5,.(V4.Sum = sum(V4)),by=V1]
   V1 V4.Sum
1:  1      8
2:  2     16

使用函式.N來得到每個類別的總觀測數

在V1列中計算每個分組的觀測數

> DT[,.N,by=V1]
   V1 N
1:  1 6
2:  2 6

5.使用:=引用來新增或更新一列

在一行中使用:=引用來新增或更新列.

注意: 額外的指定 (DT <- DT[…])是多餘的
使用:=來更新V1列:

> DT[, V1 := round(exp(V1),2)]

這段程式碼沒有顯式的返回結果，而V1列從[1] 1 2 1 2 … 變成了 [1] 2.72 7.39 2.72 7.39 …

使用:=引用來新增或更新多列

使用:=更新V1列和V2列：

> DT[, c("V1","V2") := list(round(exp(V1),2), LETTERS[4:6])]

同樣沒有顯式的返回結果，V1列的結果與上相同，V2列從[1] “A” “B” “C” “A” “B” “C” … 變成: [1] “D” “E” “F” “D” “E” “F” …

使用函式:=

上例的另一種寫法,但會在書寫時更易並齊。而且,當新增[]時，結果會返回在螢幕中

> DT[, ':=' (V1 =round(exp(V1),2),V2 = LETTERS[4:6])][]

與上例變化相同,但是由於在語句最後添加了[]，這一結果會返回至螢幕

通過使用:=來移除一列

移除V1列

> DT[, V1 := NULL]

無顯式的返回結果，但V1列變為NULL

通過使用:=來移除多列

移除V1列與V2列

> DT[, c("V1","V2") := NULL]

無顯式的返回結果，但V1列與V2列變為NULL

將一個包含列名的變數用小括號包裹起來，變數所傳遞的內容將會被刪除
注意：列名為Cols.chosen的列將會被刪除，這裡不是刪除”V1”,”V2”列

> Cols.chosen = c("V1","V2")
> DT[, Cols.chosen := NULL]

無顯式的返回結果，列名為Cols.chosen的列將會被刪除

刪除指定變數Cols.chosen包含的V1列和V2列

> DT[, (Cols.chosen) := NULL]

無顯式的返回結果，列名為V1和V2的列變為NULL##索引與鍵值

使用setkey()函式設定鍵值

setkey()函式可以在資料集DT上設定鍵值。當我們設定好key後，data.table會將資料按照key來排序。
在V2列上設定一個鍵值

> setkey(DT,V2)

無顯示返回結果

使用鍵值來選擇行

使用鍵值可以更加有效地選擇行
由於已將V2設定了鍵值，將會返回該列中所有包含變數值A的行

> DT["A"]
   V1 V2 V3 V4
1: 1 A -1.1727 1
2: 2 A 0.6651 4
3: 1 A -1.0604 7
4: 2 A -0.3825 10

返回鍵值所在列(V2列)包含變數值A或變數值C的所有行

> DT[c("A","C")]
   V1 V2      V3 V4
1:  1  A -0.8981  1
2:  2  A -0.1745  4
3:  1  A -0.5014  7
4:  2  A -0.3348 10
5:  1  C -0.5014  3
6:  2  C -0.3348  6
7:  1  C -0.8981  9
8:  2  C -0.1745 12

mult引數

mult引數是用來控制i匹配到的哪一行的返回結果預設情況下會返回該分組的所有元素
返回匹配到鍵值所在列(V2列)所有行中的第一行

> DT["A", mult ="first"]
   V1 V2 V3 V4
1: 1 A -1.1727 1

返回匹配到鍵值所在列(V2列)所有行中的最後一行

> DT["A", mult = "last"]
   V1 V2 V3 V4
1: 2 A -0.3825 10

nomatch引數

nomatch引數用於控制，當在i中沒有到匹配資料的返回結果，預設為NA，也能設定為0。0意味著對於沒有匹配到的行將不會返回。
返回匹配到鍵值所在列(V2列)所有包含變數值A或D的所有行：

> DT[c("A","D")]
   V1 V2    V3 V4
1: 1 A -1.1727 1
2: 2 A 0.6651  4
3: 1 A -1.0604 7
4: 2 A -0.3825 10
5: NA D NA     NA

變數值A匹配到了，而變數值D沒有，故返回NA。
返回匹配到鍵值所在列(V2列)所有包含值A或D的所有行：

> DT[c("A","D"), nomatch = 0]
   V1 V2    V3 V4
1: 1 A -1.1727 1
2: 2 A  0.6651 4
3: 1 A -1.0604 7
4: 2 A -0.3825 10

因為nomatch引數，值D沒有匹配到故不返回。

by=.EACHI引數

by=.EACHI允許按每一個已知i的子集分組，在使用by=.EACHI時需要設定鍵值
返回鍵值(V2列)中包含A或C的所有行中，V4列的總和。

> DT[c("A","C"),
sum(V4)]
[1] 52

返回鍵值所在列(V2列)中包含A的行在V4列總和與包含C的行在V4列的總和。

> DT[c("A","C"),
sum(V4), by=.EACHI]
  V2 V1
1: A 22
2: C 30

使用setkey()設定一個多列主鍵

任意列都能使用setkey()來設定主鍵，這種方式可以選擇2個列作為一個主鍵。以下是一個等值連線V1列的每個組先根據V1排序，再根據V2排序。

> setkey(DT,V1,V2)

無顯式返回結果

選擇鍵值1(V1列)為2且鍵值2(V2列)為C的行。

> DT[.(2,"C")]
  V1 V2     V3 V4
1: 2 C -0.3825 6
2: 2 C  0.6651 12

選擇鍵值1(V1列)為2且鍵值2(V2列)為A或C的行

> DT[.(2,c("A","C"))]
   V1 V2   V3 V4
1: 2 A  0.6651 4
2: 2 A -0.3825 10
3: 2 C -0.3825 6
4: 2 C  0.6651 12

6.data.table高階操作

.N

.N可以用來表示行的數量或者最後一行

在i處使用：

> DT[.N-1]
   V1 V2      V3 V4
1:  1  B -0.5765 11

返回每一列的倒數第二行
在j處使用：

> DT[,.N-1]
[1] 11

返回倒數第二行所在的行數。

.()

.()是list()的一個別名，他們在data.table中是等價的。當只有一個元素的位置j或者by中，是不需要.()的。

在j中使用：

> DT[,.(V2,V3)] #or DT[,list(V2,V3)]
    V2      V3
 1:  A -0.8313
 2:  B  0.7615
 3:  C -0.5765

在by中使用：

> DT[, mean(V3),by=.(V1,V2)]
   V1 V2       V1
1:  1  A -0.70390
2:  2  B  0.06755
3:  1  C -0.70390
4:  2  A  0.06755
5:  1  B -0.70390
6:  2  C  0.06755

以V1，V2為分組，對V3求均值

.SD引數

.SD是一個data.table，他包含了各個分組，除了by中的變數的所有元素。.SD只能在位置j中使用：

> DT[, print(.SD), by=V2]
   V1      V3 V4
1:  1 -0.8313  1
2:  2 -0.6264  4
3:  1 -0.5765  7
4:  2  0.7615 10
   V1      V3 V4
1:  2  0.7615  2
2:  1 -0.8313  5
3:  2 -0.6264  8
4:  1 -0.5765 11
   V1      V3 V4
1:  1 -0.5765  3
2:  2  0.7615  6
3:  1 -0.8313  9
4:  2 -0.6264 12
Empty data.table (0 rows) of 1 col: V2

以V2為分組，選擇每組的第一和最後一列：

> DT[,.SD[c(1,.N)], by=V2]
   V2 V1      V3 V4
1:  A  1 -0.8313  1
2:  A  2  0.7615 10
3:  B  2  0.7615  2
4:  B  1 -0.5765 11
5:  C  1 -0.5765  3
6:  C  2 -0.6264 12

以V2為分組，計算.SD中所有元素的和:

> DT[, lapply(.SD, sum), by=V2]
   V2 V1      V3 V4
1:  A  6 -1.2727 22
2:  B  6 -1.2727 26
3:  C  6 -1.2727 30

.SDcols

.SDcols常於.SD用在一起，他可以指定.SD中所包含的列，也就是對.SD取子集：

> DT[, lapply(.SD,sum), by=V2,
+    .SDcols = c("V3","V4")]
   V2      V3 V4
1:  A -1.2727 22
2:  B -1.2727 26
3:  C -1.2727 30

.SDcols也可以是一個函式的返回值：

> DT[, lapply(.SD,sum), by=V2,
+    .SDcols = paste0("V",3:4)]
   V2      V3 V4
1:  A -1.2727 22
2:  B -1.2727 26
3:  C -1.2727 30

結果與上一個是相同的。

7.串聯操作可以把表示式聚合在一起並避免多餘的中間變數

把多個操作串聯起來，這等價於SQL中的having

> DT<-DT[, .(V4.Sum = sum(V4)),by=V1]
> DT[V4.Sum > 35] #no chaining
V1 V4.Sum
1: 1 36
2: 2 42

這個是不使用串聯的方法，先以V1為分組，對V4求和，然後再把分組總和大於35的取出來。
使用串聯的方法：

> DT[, .(V4.Sum = sum(V4)),by=V1][V4.Sum > 35 ]
V1 V4.Sum
1: 1 36
2: 2 42

分組求和之後對V1進行排序：

> DT[, .(V4.Sum = sum(V4)),by=V1][order(-V1)]
V1 V4.Sum
1: 2 42
2: 1 36

8.使用`set()`家族

set()

set()通常用來更新給定的行和列的值，要注意的是，他不能跟by結合使用。

> rows = list(3:4,5:6)
> cols = 1:2
> for (i in seq_along(rows))
+ { 
+ set(DT,
+ i=rows[[i]],
+ j = cols[i],
+ value = NA) 
+}
> DT
    V1 V2      V3 V4
 1:  1  A -0.0559  1
 2:  2  B -0.4450  2
 3: NA  C  0.0697  3
 4: NA  A -0.1547  4
 5:  1 NA -0.0559  5
 6:  2 NA -0.4450  6
 7:  1  A  0.0697  7
 8:  2  B -0.1547  8

以上程式把給定的一組行和列都設定為了NA

setname()

與set()同理，setname()可以修改給定的列名和行名，以下程式是

#把名字為"old"的列，設定為"new"
> setnames(DT,"old","new") 
#把"V2","V3"列，設定為"V2.rating","V3.DataCamp"
> setnames(DT,c("V2","V3"),c("V2.rating","V3.DataCamp"))

setcolorder()

setcolorder()可以用來修改列的順序。

setcolorder(DT,c("V2","V1","V4","V3"))

這段程式碼會使得列的順序變成：

[1] "V2" "V1" "V4" "V3"

作為分享主義者(sharism)，本人所有網際網路釋出的圖文均遵從CC版權，轉載請保留作者資訊並註明作者a358463121專欄:http://blog.csdn.net/a358463121，如果涉及原始碼請註明GitHub地址：https://github.com/358463121/。商業使用請聯絡作者。

R語言data.table速查手冊

介紹 R中的data.table包提供了一個data.frame的高階版本，讓你的程式做資料整型的運算速度大大的增加。data.table已經在金融，基因工程學等領域大放光彩。他尤其適合那些需要處理大型資料集（比如 1GB 到100GB）需要在記憶體中處理資料

R語言data.table簡介

data.table包提供了一個非常簡潔的通用格式：DT[i,j,by]，可以理解為：對於資料集DT，選取子集行i,通過by分組計算j，對比與dplyr等包，data.table的執行速度更快。建立一個data.table set.seed(1)

Keras cheat sheet（Keras 速查手冊）

heat 打開 sset mage .com pdf .cn log amazon 轉自：https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf 右擊在新標

R語言Data Frame數據框常用操作

library union merge 自增 date類型多個 pri t對象 enc Data Frame一般被翻譯為數據框，感覺就像是R中的表，由行和列組成，與Matrix不同的是，每個列可以是不同的數據類型，而Matrix是必須相同的。 Data Frame每一列

Pandas速查手冊中文版

文章 sheet ges .info count() ble 重要標準 agg 本文翻譯自文章： Pandas Cheat Sheet - Python for Data Science ，同時添加了部分註解。對於數據科學家，無論是數據分析還是數據挖掘來說，Pandas

awk速查手冊

連接數 txt -c 連接查看 use 在一起就是 net awk速查手冊 score.txt cat score.txt Marry 2143 78 84 77 Jack 2321 66 78 45 Tom 2122 48 77 71 Mike

GIT速查手冊

就是 form ads 1.0 重要三種 rect 其他指針一、GIT 1.1 簡單配置 git是版本控制系統，與svn不同的是git是分布式，svn是集中式配置文件位置 # 配置文件 .git/config 當前倉庫的配置文件 ~/.gitconfig 全局配置文

實用掌中寶--HTML&CSS常用標簽速查手冊 PDF掃描版

適合維護 jin 第6章 bsp 知識 -h 講解 AR 實用掌中寶--HTML&CSS常用標簽速查手冊內容推薦: 本書第一篇以語法和實例相結合的形式，詳細講解了HTML語言中各個元素及其屬性的作用、語法和顯示效果；第二篇從CSS基本概念開始，分別講解了CSS基

sublime速查手冊

data sha 地方 mono man 列表 row advance 不用零、sublime的優勢容易上手支持多點編輯包管理：Package Control 速度快深度可訂制，配置文件放github上 sublime-config 快速文件切換 cmd + p

4、numpy+pandas速查手冊

正態分布矩陣轉置 chan pan union python 維度 argmax ndarray 《Python數據分析常用手冊》一、NumPy和Pandas篇一、常用鏈接： 1.Python官網：https://www.python.org/

【轉載】匯編速查手冊

有效查表 cal pxc 移位寄存器 add 匯編定義一、數據傳輸指令 ─────────────────────────────────────── 它們在存貯器和寄存器、寄存器和輸入輸出端口之間傳送數據. 1. 通用數據傳送指令.

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊 Numpy SciPy Scikit-Learn Pandas Keras Matp

console 速查手冊

// 用於輸出一個 js 物件列表* console.log(obj1 [, obj2, ..., objN); // // 一個 js 字串，其中包含0或多個不同型別的替代字串 // console.log('String: %s, Int: %d,Float: %f, Object: %o', str,

Git 常用命令速查手冊

哪些常用命令 bsp 某個文件 status 如果 oba git add str 來源：https://www.jianshu.com/p/5ee9897b6b65 1、初始化倉庫 git init 2、將文件添加到倉庫 git add 文件名 #

機器學習 Python基礎1 Pandas DataFrame 常用方法速查手冊中文版

本文轉載自知乎文章 Pandas速查手冊中文版，原英文版 Pandas Cheat Sheet - Python for Data Science，在這基礎上加入了一些自己的理解。 Pandas 速查手冊匯入資料匯出資料建立測試物件檢視、

SAP - SD模組開發速查手冊

SAP - SD模組開發速查手冊 1. 相關表 VBAK：銷售訂單擡頭 VBAP：銷售訂單專案 VBUK：擡頭狀態 VBUP：行專案狀態 VBKD：銷售憑證：業務資料 VBPA：銷售憑證：合作伙伴 VBEP：銷售憑證：計劃行資料 LIKP

Git常用命令速查手冊

命令不斷更新中…… Git的四個組成部分 img 1、初始化倉庫 git init 2、將檔案新增到倉庫 git add 檔名 # 將工作區的某個檔案新增到暫存區 gi

iOS開發必備OC和Swift的轉換速查手冊（強力推薦）

這篇文章主要給大家介紹了關於Objective-C和Swift的轉換速查手冊的相關資料，文中通過示例程式碼介紹的非常詳細，非常推薦給大家參考學習使用，盛情邀請讀者進入小編交流群：624212887，一起交流學習前言如果你正要從Objective-C過渡到

HTTP菜鳥教程速查手冊

HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）是因特網上應用最為廣泛的一種網路傳輸協議，所有的WWW檔案都必須遵守這個標準。 HTTP是一個基於TCP/IP通訊協議來傳遞資料（HTML 檔案, 圖片檔案, 查詢結果等）。

23個 Git 最常用命令速查手冊，值得收藏！

Git的四個組成部分 1、初始化倉庫 git init 2、將檔案新增到倉庫 git add 檔名 # 將工作區的某個檔案新增到暫存區 git add -u # 新增所有被tracked檔案中被修改或刪除的檔案資訊到暫存區，不處理untracked的檔案

R語言data.table速查手冊

介紹

1.生成一個data.table物件

2.通過i來篩選資料集的行

通過數字來篩選資料集的行

基於使用快速自動索引條件，使用列名選擇行i

選擇多個值:

3.通過j來操作列

通過j來選擇一列

通過j來選擇多列

在j上呼叫函式

在多列上進行計算

指定計算列的列名

若列的長度不一，則會迴圈對齊

多個表示式可以包裹在花括號中

4.根據分組來操作j

根據分組來操作j

通過使用.()控制多個列來操作j

在by中呼叫函式

通過指定i行子集的分組進行操作

使用函式.N來得到每個類別的總觀測數

5.使用:=引用來新增或更新一列

在一行中使用:=引用來新增或更新列.

使用:=引用來新增或更新多列

使用函式:=

通過使用:=來移除一列

通過使用:=來移除多列

使用setkey()函式設定鍵值

使用鍵值來選擇行

mult引數

nomatch引數

by=.EACHI引數

使用setkey()設定一個多列主鍵

6.data.table高階操作

.N

.()

.SD引數

.SDcols

7.串聯操作可以把表示式聚合在一起並避免多餘的中間變數

把多個操作串聯起來，這等價於SQL中的having

8.使用set()家族

set()

setname()

setcolorder()

相關推薦

8.使用`set()`家族