pandas的表合併操作

阿新 • • 發佈：2018-12-11

在上一篇文章中，我整理了pandas在資料合併和重塑中常用到的concat方法的使用說明。在這裡，將接著介紹pandas中也常常用到的join 和merge方法

merge

pandas的merge方法提供了一種類似於SQL的記憶體連結操作，官網文件提到它的效能會比其他開源語言的資料操作（例如R）要高效。

和SQL語句的對比可以看這裡

merge的引數

on：列名，join用來對齊的那一列的名字，用到這個引數的時候一定要保證左表和右表用來對齊的那一列都有相同的列名。

left_on：左表對齊的列，可以是列名，也可以是和dataframe同樣長度的arrays。

right_on：右表對齊的列，可以是列名，也可以是和dataframe同樣長度的arrays。

left_index/ right_index: 如果是True的haunted以index作為對齊的key

how：資料融合的方法。

sort：根據dataframe合併的keys按字典順序排序，預設是，如果置false可以提高表現。

merge的預設合併方法：
    merge用於表內部基於 index-on-index 和 index-on-column(s) 的合併，但預設是基於index來合併。

1.1 複合key的合併方法

使用merge的時候可以選擇多個key作為複合可以來對齊合併。

1.1.1 通過on指定資料合併對齊的列

In [41]: left = pd.DataFrame({'key1' 
: ['K0', 'K0', 'K1', 'K2'],
   ....:                      'key2': ['K0', 'K1', 'K0', 'K1'],
   ....:                      'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3']})
   ....: 

In [42]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
   ....:                       'key2' 
: ['K0', 'K0', 'K0', 'K0'],
   ....:                       'C': ['C0', 'C1', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D1', 'D2', 'D3']})
   ....: 

In [43]: result = pd.merge(left, right, on=['key1', 'key2'])

這裡寫圖片描述沒有指定how的話預設使用inner方法。

how的方法有：

left

只保留左表的所有資料

In [44]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

這裡寫圖片描述

right

只保留右表的所有資料

In [45]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])

這裡寫圖片描述

outer

保留兩個表的所有資訊

In [46]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

這裡寫圖片描述

inner

只保留兩個表中公共部分的資訊

In [47]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])

這裡寫圖片描述

1.2 indicator

v0.17.0 版本的pandas開始還支援一個indicator的引數，如果置True的時候，輸出結果會增加一列 ’ _merge’。_merge列可以取三個值

left_only 只在左表中
right_only 只在右表中
both 兩個表中都有

1.3 join方法

dataframe內建的join方法是一種快速合併的方法。它預設以index作為對齊的列。

1.3.1 how 引數

join中的how引數和merge中的how引數一樣，用來指定表合併保留資料的規則。

具體可見前面的 how 說明。

1.3.2 on 引數

在實際應用中如果右表的索引值正是左表的某一列的值，這時可以通過將右表的索引和左表的列對齊合併這樣靈活的方式進行合併。

ex 1

In [59]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   ....:                      'key': ['K0', 'K1', 'K0', 'K1']})
   ....: 

In [60]: right = pd.DataFrame({'C': ['C0', 'C1'],
   ....:                       'D': ['D0', 'D1']},
   ....:                       index=['K0', 'K1'])
   ....: 

In [61]: result = left.join(right, on='key')

這裡寫圖片描述

1.3.3 suffix字尾引數

如果和表合併的過程中遇到有一列兩個表都同名，但是值不同，合併的時候又都想保留下來，就可以用suffixes給每個表的重複列名增加字尾。

In [79]: result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])

這裡寫圖片描述

*　另外還有lsuffix 和 rsuffix分別指定左表的字尾和右表的字尾。

1.4 組合多個dataframe

一次組合多個dataframe的時候可以傳入元素為dataframe的列表或者tuple。一次join多個，一次解決多次煩惱~

In [83]: right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])

In [84]: result = left.join([right, right2])

這裡寫圖片描述

1.5 更新表的nan值

1.5.1 combine_first

如果一個表的nan值，在另一個表相同位置（相同索引和相同列）可以找到，則可以通過combine_first來更新資料

1.5.2 update

如果要用一張表中的資料來更新另一張表的資料則可以用update來實現

1.5.3 combine_first 和 update 的區別

使用combine_first會只更新左表的nan值。而update則會更新左表的所有能在右表中找到的值（兩表位置相對應）。

示例程式碼參考來源——官網

pandas的表合併操作

在上一篇文章中，我整理了pandas在資料合併和重塑中常用到的concat方法的使用說明。在這裡，將接著介紹pandas中也常常用到的join 和merge方法 merge pandas的merg

資料結構--順序表合併操作

線性表La和Lb中的元素按值非遞減排列,歸併La和Lb得到新的線性表Lc,Lc的數值也按非遞減排列 Uoion_Sort_2.c 函式 #include "c1.h" #include "c

C++中用模板類（結點類，連結串列類）實現的單鏈表的合併操作！

程式碼通俗易通，如下 List.h #include<stdio.h> template <class T> class ListNode { T data; ListNode<T>* link; public:

pandas 表的合併 merge/join/contact

最近做比賽的特徵工程時，經常用到表的合併，對上述三種操作總是不是熟練的使用，弄不清其中的區別與聯絡。所以花點時間弄清他們。 merge操作 merge通過一個或者多個鍵將兩張表合併在一起，api如下 merge(left,right,how='inner',on=None,l

Java單鏈表基本操作（八）--合併兩個有序單鏈表

package listnode; /** * @author Gavenyeah * @date Start_Time：2016年4月1日下午15:01:47 * @date End_Ti

線性表——鏈式儲存結構合併操作

採取的結構和上一篇博文一致，均為單鏈表儲存結構。#include<iostream> #include<stdio.h> #include<stdlib.h> #define ElemType int #define Status

資料結構學習(四)——迴圈單鏈表的操作之合併

所謂迴圈連結串列就是尾結點與頭結點相連的連結串列，整個連結串列形成一個環。而對於迴圈連結串列的插入與刪除運算，基本上與單鏈表相同，只是在判斷連結串列是否結束有所不同。下面的程式碼操作實現了兩個迴圈單鏈表的合併。且核心程式碼不多，主要是分別找到迴圈單鏈表的尾結點再進行後續操作

演算法與資料結構--實現線性表的合併操作（合併後按非遞減排列）

/*檔名稱：實現線性表的合併操作（合併後按非遞減排列）*/#include <bits/stdc++.h> using namespace std; #define LIST_INIT_SIZE 100 //線性表儲存空間的初始分配量

3Python全棧之路系列之MySQL表內操作

s表內操作qlPython全棧之路系列之MySQL表內操作先創創建一個表用於測試-- 創建數據庫 CREATE DATABASE dbname DEFAULT CHARSET utf8 COLLATE utf8_general_ci; -- 創建表 CREATE TABLE `tb` ( `id` int

深入學習之mysql（二）表的操作

uniq order fault change incr 相關約束設置 type 1、表：是數據庫中的存儲數據的基本單位，一個表包含若幹個字段和值 2、創建表：　　CREATE TABLE 表名稱 ( 　　字段名1　　數據庫類型1　　[約束條件1], 　　字段名2　　

循環鏈表簡單操作 C++

code ace turn 是否 view mage 節點頭部 size 帶有頭節點的循環鏈表。頭節點的數據域為空，在查找某元素是否在鏈表中時，可用與存放該元素。頭節點的next指針指向第一個元素。最後一個元素指向頭節點。如圖： //CircularList

jqm文件上傳,上傳圖片,jqm的表單操作,jqm的ajax的使用,jqm文件操作大全,文件操作demo

今天 south eth 1.8 get pri pos nis gravity 近期在論壇中看到。在使用html5中上傳圖片或文件，出現各種問題。這一方面，我也一直沒有做過，今天就抽出了一點時間來學習一下。如今的演示樣例已經ok了，我就給大家分享一下，希望對大家有幫助

Hive 表結構操作

comment 修改字段 color alt 名稱 user str exists change 添加列 add columns 　　　　alter table table_name add columns (id int comment ‘主鍵ID‘ ) ; 　　　

07、順序表的操作

main type 6.0 函數聲明功能刪除！ align size 一個順序表的操作一、從順序表中刪除具有最小值的元素 /* 時間：2017年7月2日10:49:39 功能：從順序表中刪除具有最小值的元素並將最後元素放於被刪除元素的位置，由函數返回被刪元素的

MySQL-mysql 數據類型,操作數據表,記錄操作

lar 自動編號過濾 mysql like show 枚舉 idt 默認值一,數據類型各日期類型的開始時間到結束時間： 1、YEAR：1970至2069 2、TIME：-838:59:59至838:59:59 3、DATE：1000-1-1至9999-12-31

MySQL數據庫（3）_MySQL數據庫表記錄操作語句

多條信息 employ 例如操作 ron span 進一步 group 附: MYSQL5.7版本sql_mode=only_full_group_by問題 1、查詢當前sql_mode: select @@sql_mode 2、查詢出來的值為： set @@

臨時表空間操作總結

con database 成功 1.5 size ane stripe ont table 一、臨時表空間理論在9i之前，如果一個數據庫用戶沒有被指定默認臨時表空間，那麽oracle就會使用system表空間作為該用戶的臨時表空間，這是很危險的。在9i裏面，databa

關於鏈表所有操作，面試必考C++

val 插入 isl tail truct ise delete 彈出添加 1 #include <iostream> 2 #include <stack> 3 using namespace std; 4 //鏈表的結構

數據庫與表的操作

sans 指定 let center wid 16px lin per uri 以下語句都可以直接在InfluxDB的Web管理界面中調用+# 創建數據庫 CREATE DATABASE "db_name"# 顯示所有數據庫 SHOW DATABASES # 刪除數據庫 D

ORACLE表空間操作實例

nds 臨時文件 acl efault home const desc 文件大小 extend 本文主要介紹oracle表空間常見的操作實例，包括創建、查詢、增加、刪除、修改。表空間和數據文件常用的數據字典和動態性能視圖包括v$dbfile、v$datafile、d

pandas的表合併操作

merge

1.1 複合key的合併方法

1.1.1 通過on指定資料合併對齊的列

left

right

outer

inner

1.2 indicator

1.3 join方法

1.3.1 how 引數

1.3.2 on 引數

1.3.3 suffix字尾引數

1.4 組合多個dataframe

1.5 更新表的nan值

1.5.1 combine_first

1.5.2 update

1.5.3 combine_first 和 update 的區別

相關推薦