pandas進行資料的交集與並集方式的資料合併

阿新 • • 發佈：2019-01-29

資料合併有多種方式，其中最常見的應該就是交集和並集的求取。之前通過分析總結過pandas資料merge功能預設的行為，其實預設下求取的就是兩個資料的“交集”。

有如下資料定義：

In [26]: df1

Out[26]:

data1 key

0 0 b

1 1 b

2 2 a

3 3 c

4 4 a

5 5 a

6 6 b

In [27]: df2

Out[27]:

data2 key

0 0 a

1 1 b

2 2 d

3 3 b

進行merge的結果：

In [28]: pd.merge(df1,df2)

Out[28]:

data1 key data2

0 0 b 1

1 0 b 3

2 1 b 1

3 1 b 3

4 6 b 1

5 6 b 3

6 2 a 0

7 4 a 0

8 5 a 0

從上面的結果中能夠看出，merge的預設處理行為是求取了兩組資料key的交集，但是對於key的值進行了並集的求取。其實也很好理解，如果僅僅是求取交集而資料沒有任何合併那就不叫做資料合併了。

接下來試一下制定了引數的的交集資料合併處理：

In [29]: pd.merge(df1,df2,how='inner')

Out[29]:

data1 key data2

0 0 b 1

1 0 b 3

2 1 b 1

3 1 b 3

4 6 b 1

5 6 b 3

6 2 a 0

7 4 a 0

8 5 a 0

In [30]: result_inner = pd.merge(df1,df2,how=

'inner')

In [31]: result_default = pd.merge(df1,df2)

In [32]: result_inner == result_default

Out[32]:

data1 key data2

0 True True True

1 True True True

2 True True True

3 True True True

4 True True True

5 True True True

6 True True True

7 True True True

8 True True True

通過上面的結果可以看出：制定了引數的的交集資料合併處理的結果與資料合併方法merge的預設行為是一致的。

再試一下並集資料合併處理方法，這需要制定引數how為outer：

In [35]: result_outer = pd.merge(df1,df2,how='outer')

In [36]: result_outer

Out[36]:

data1 key data2

0 0.0 b 1.0

1 0.0 b 3.0

2 1.0 b 1.0

3 1.0 b 3.0

4 6.0 b 1.0

5 6.0 b 3.0

6 2.0 a 0.0

7 4.0 a 0.0

8 5.0 a 0.0

9 3.0 c NaN

10 NaN d 2.0

通過上面的執行結果可以看出：合併後的資料中的key擁有了兩組資料所有的key，而資料雖然有一部分兩組資料不能夠重合，但也通過NaN的值進行了相應的填補。

還有一點需要注意的，那就是合併之後的資料個數。合併後的資料中，key的個數是兩組資料中分別擁有的資料的笛卡爾乘積。如果其中一組沒有的時候，進行合併的時候另一組資料中會建立一個NaN數值的物件與之進行合併。

pandas進行資料的交集與並集方式的資料合併

資料合併有多種方式，其中最常見的應該就是交集和並集的求取。之前通過分析總結過pandas資料merge功能預設的行為，其實預設下求取的就是兩個資料的“交集”。有如下資料定義： In [26]: df

C#對List中的資料進行取交集、並集、差集和去重操作的方法

第一步：定義兩個list並進行初始化 public List<string> GetList1() { List<string> lis

資料結構：求兩個有序列表的交集，並集

1.求兩個有序列表的交集 LNode* Intersection(LNode* La,LNode* Lb) { if (La==NULL||Lb==NULL) { return NULL; } LNode *pCHead = NULL; //A與B交集頭 LNode *pCE

java 對兩個list進行“交集，並集，差集，去重複並集”的操作

@Test public void testTwoList(){ List<String> a = new ArrayList<String>(); List<

資料結構演算法題/兩個已排序陣列的交集和並集

兩個已排序陣列的交集和並集問題：給你兩個排序的陣列，求兩個陣列的交集。比如： A = 1 3 4 5 7， B = 2 3 5 8 9，那麼交集就是 3 5. 思路： 1. 每一次從B陣列中取一值，然後在A數組裡逐個比較，如果有相等的，則儲存。該演算法複雜度為 O(MN).

求List,Map,Set的交集，並集與差集

應用場景在大資料的背景下，我們在做專案的時候往往使用單表在資料庫中查詢資料，然後多表在service層進行關聯操作。比如說下面的情況就是如此，在這裡我並不是展開講多表之間如何實現解耦的單表查詢操作，我只是針對其中的涉及多表關聯的集合操作進行講解

python陣列交集、並集與不同

>>> a = [1,2,3]>>> b = [2,4,5]>>> list(set(a).intersection(set(b)))[2]>>> list(set(a).union(set(b)))[1, 2, 3, 4, 5]&g

Perl技巧兩個陣列的取交集，並集與補集

利用perl 對兩個陣列進行操作。目的是取2個數組只屬於各自的元素，以及2個數組的共同元素。（可見下圖）程式碼： #!/usr/bin/perl use strict; use warnings; use Data::Dumper; my @a = (1,2,3

boost多邊形交集、並集

intersect 地址 int boost 下載 geometry hms 並集 algorithm 交集：http://www.boost.org/doc/libs/1_56_0/libs/geometry/doc/html/geometry/reference/alg

python 兩個list 求交集，並集，差集

pytho 列表解析 int __main__ class clas etc intersect run def diff(listA,listB): #求交集的兩種方式 retA = [i for i in listA if i in listB]

【轉】C# Linq 交集、並集、差集、去重

log .cn pre tin nio clas int except post 轉自： https://www.cnblogs.com/wdw31210/p/4167306.html using System.Linq; List<string&

交集、並集、差集

轉變 set pig dog 集合 style AS bee print 交集合cat=[‘fish‘,‘beef‘,‘pig‘] dog=[‘beef‘,‘pig‘] #列表轉變為集合 cat1=set(cat) dog1=set(dog) print(cat1,dog

【C++】判斷元素是否在vector中，對vector去重，兩個vector求交集、並集

bool iostream space col 求交集 uniq AI void print #include <iostream> #include <vector> #include <algorithm> //sort函數、交並補

python兩個 list 獲取交集，並集，差集的方法

交集 spa 兩個方法 val inter tmp for col 1. 獲取兩個list 的交集 #方法一: a=[2,3,4,5] b=[2,5,8] tmp = [val for val in a if val in b] print tmp #[2, 5] #

python求解列表元素的交集、並集和異或

>>> x = set('abcde') >>> y = set('bdxyz') >>> x set(['a', 'c', 'b', 'e', 'd']) &

python 求列表的交集，並集，差集

#coding=utf-8 def foo(list1,list2): #求交集 ret1 = [i for i in list1 if i in list2] ret2 = list(set(list1).intersection(set(lis

求兩個單調不減單鏈表的交集和並集（C語言）

一、思路：構造struct node* Link(struct node *P,struct node *Q,int sign)函式，當sign=1時，返回P,Q的並集，當sign=0時，返回P,Q的交集，求交併的思路為： ①對P,Q分別賦予兩個指標p和q，初始時分別指向P,Q的頭結點

java兩個List的交集，並集，差異集

public static void main(String[] args) { List list1 =new ArrayList(); list1.add("1111"); list1.add("2222"); list1.add("3333"); lis

python的交集、並集、差集

①差集方法一： if __name__ == '__main__': a_list = [{'a' : 1}, {'b' : 2}, {'c' : 3}, {'d' : 4}, {'e' : 5}] b_list = [{'a' : 1}, {'b' : 2}] ret_list = [] for it

[Python]集合的交集，並集，差集

前提：測試中需要給某些應用設定黑名單，所以從.txt檔案中求兩者的差集，就可以篩選出需要測試的應用思路：將.txt檔案中的資料讀到列表中，求列表的集合，再輸出到指定目錄集合的思路： a = [1,2,3,4,5,6] b = [5,6,7] c = [] ①交集 c = [i for i i

pandas進行資料的交集與並集方式的資料合併

相關推薦