Tidyverse| XX_join :多個數據表(檔案)之間的各種連線
阿新 • • 發佈:2020-06-05
本文首發於公眾號:“生信補給站” Tidyverse| XX_join :多個數據表(檔案)之間的各種連線
前面分享了單個檔案中的select列,filter行,列拆分等,實際中經常是多個數據表,綜合使用才能回答你所感興趣的問題。
本次簡單的介紹多個表(檔案)連線的方法。
一 載入資料,R包
library(tidyverse)
x <- tribble(
~key, ~val_x,
1, "x1",
2, "x2",
3, "x3"
)
y <- tribble(
~key, ~val_y,
1, "y1",
2, "y2",
4, "y3"
)
二 合併資料
向資料框中加入新變數,新變數的值是另一個數據框中的匹配觀測。
1 連線方式
1) 內連線 inner_join
內連線是最簡單的一種連線,只要兩個觀測的鍵是相等的,即可匹配。
註釋:匹配在實際的連線操作中是用圓點表示的。圓點的數量 = 匹配的數量 = 結果中行的數量。下同
x %>%
inner_join(y, by = "key")
# A tibble: 2 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
內連線最重要的性質是,沒有匹配的行不會包含在結果中。容易丟失觀測,慎用。
2) 外連線
外連線則保留至少存在於一個表中的觀測。外連線有 3 種類型: • 左連線 left_join
:保留 x 中的所有觀測。 • 右連線 right_join
:保留 y 中的所有觀測 • 全連線 full_join
:保留 x 和 y 中的所有觀測。
x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 4 <NA> y3
x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
4 4 <NA> y3
2 重複鍵
以上均假設鍵具有唯一性,但情況並非總是如此。
如果x中的key變數,在y中有多個同樣的key,那麼所有的結合可能都會羅列出來
x1 <- tribble(
~key, ~val_x,
1, "x1",
2, "x2",
2, "x3",
1, "x4"
)
y1 <- tribble(
~key, ~val_y,
1, "y1",
2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 2 x3 y2
4 1 x4 y1
3 定義連線鍵
1) 預設值 by = NULL
使用存在於兩個表中的所有變數,這種方式稱為自然連線。
left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
2) 定義匹配鍵 by = c("a" = "b")
匹配 x 表中的 a 變數和 y 表中的 b 變數,輸出結果中使用的是 x 表中的變數。
y_1 <- tribble(
~key2, ~val_y,
1, "y1",
2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
key val_x val_y
<dbl> <chr> <chr>
1 1 x1 y1
2 2 x2 y2
3 3 x3 <NA>
3) 多個匹配鍵
x2 <- tribble(
~key,~key1, ~val_x,
1, 2018,"x1",
2, 2019,"x2",
3, 2019,"x3"
)
y2 <- tribble(
~key, ~key1,~val_y,
1, 2018,"y1",
2, 2018,"y2",
4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
key key1 val_x val_y
<dbl> <dbl> <chr> <chr>
1 1 2018 x1 y1
三 篩選連線
篩選連線匹配觀測的方式與合併連線相同,但前者影響的是觀測,而不是變數。篩選連線 有兩種型別。
semi_join函式
-
保留 x 表中與 y 表中的觀測相匹配的所有觀測
semi_join(x, y, by = "key")
# A tibble: 2 x 2
key val_x
<dbl> <chr>
1 1 x1
2 2 x2
anti_join函式
-
丟棄 x 表中與 y 表中的觀測相匹配的所有觀測。
anti_join(x, y, by = "key")
# A tibble: 1 x 2
key val_x
<dbl> <chr>
1 3 x3
參考資料:
https://r4ds.had.co.nz/
《R資料科學》
【覺得不錯,右下角點個“在看”,期待您的轉發,謝謝!】
&n