Python-dataframe合併(merge函式）

阿新 • • 發佈：2019-01-05

import pandas as pd
import numpy as np

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})
df2=pd.DataFrame({'key':['a','b','d'], 'data2':range(3)})

pd.merge(df1,df2)  #沒有指明聯結的建，會將重疊列的列名當作鍵。

pd.merge(df1,df2,on='key').sort_values(by='key')

df3=pd.DataFrame({'lkey':['b','b','a','c','a','a','b'],'data1':range(7)})
df4=pd.DataFrame({'rkey':['a','b','d'],'data2':range(3)})

pd.merge(df3,df4,left_on='lkey',right_on='rkey')
#若兩列所要聯結的鍵不同可以分別制定，且預設也是inner

pd.merge(df1,df2,how='outer') #兩個資料框不都有的key值會出現NaN

多對多

df1=pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)})
df2=pd.DataFrame({'key':['a','b','a','b','d'],'data2':range(5)})

pd.merge(df1,df2,how='left') #left保證df1的data1全部出現
#多對多聯結產生的結果是笛卡兒積，左邊df1有3個b,右邊df2有2兩個b,共得6個b

pd.merge(df1,df2,how='inner')

根據多個列合併

left=pd.DataFrame({'key1':['foo','foo','bar'],
                  'key2':['one','two','one'],
                  'lval':[1,2,3]})
right=pd.DataFrame({'key1':['foo','foo','bar','bar'],
                   'key2':['one','one','one','two'],
                    
'rval':[4,5,6,7]})
pd.merge(left,right,on=['key1','key2'],how='outer')
pd.merge(left,right,on=['key1','key2'])

重複列名處理

pd.merge(left,right,on='key1')  
#對於key2來說其是重複的列名

pd.merge(left,right,on='key1',suffixes=('_left','_right'))

索引上的合併 (列名上無重複，index上有重複）

left1=pd.DataFrame({'key':['a','b','a','a','b','c'],
                   'values':range(6)})
right1=pd.DataFrame({'group_val':[3.5,7]},index=['a','b'])

pd.merge(left1,right1,left_on='key',right_index=True)
#將left1的key列與left2的index列聯結

left2=pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],index=['a','c','e'],
columns=['ohio','nevada'])
right2=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14]],
index=['b','c','d','e'],columns=['missouri','alabama'])

pd.merge(left2,right2,how='outer',left_index=True,right_index=True)

join方法

left2.join(right2,how='outer') #直接實現按索引合併
left1.join(right1,on='key')  #是merge裡的outer聯結

Python-dataframe合併(merge函式）

import pandas as pd import numpy as np df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)}) df2=pd.DataFrame({'key':['a','b','

python pandas 合併資料函式merge join concat combine_first 區分

pandas物件中的資料可以通過一些內建的方法進行合併：pandas.merge，pandas.concat，例項方法join，combine_first，它們的使用物件和效果都是不同的，下面進行區分和比較。資料的合併可以在列方向和行方向上進行，即下圖所示的兩

Pandas 合併多個Dataframe（merge,concat）

在資料處理的時候，尤其在搞大資料競賽的時候經常會遇到一個問題就是，多個表單的合併問題，比如一個表單有user_id和age這兩個欄位，另一個表單有user_id和sex這兩個欄位，要把這兩個表合併成只有user_id、age、sex三個欄位的表怎麼辦的，普通的拼接是做不到的

Numpy中sum函式的使用方法（Python自帶sum函式）

Numpy中sum函式（Python自帶sum函式）的作用是對元素求和。無參時，所有全加； axis=0，按列相加； axis=1，按行相加；下邊通過例子來說明其用法： #!/usr/bin/env python # -*- coding:utf-8 -*-

C++學習筆記 --- STL練習合併merge函式

#include <iostream> #include <algorithm> #include <numeric> #include <functional> #include <vector> using n

dataframe的合並（append, merge, concat）

顯示 3.2 選擇列數行合並重復原來 result value 1，pd.concat：拼接1.1，axisdf1 = pd.DataFrame(np.ones((3,4))*0, columns = [‘a‘, ‘b‘, ‘c‘, ‘d‘])df2 = pd.Da

python包-numpy的函式和屬性總結（一）

NumPy是高效能科學計算和資料分析的基礎包。接下來為大家總結一些它的一些基礎知識。目錄 0.匯入numpy的包 1.資料型別 2.常用函式 3.NumPy.ndarray的屬性 4.NumPy.ndarray的函式 5.NumPy.ndarray的索引與切片

Python 集合內建函式大全（非常全！）

Python集合內建函式操作大全集合（s）.方法名等價符號方法說明 s.issubset(t) s <= t 子集測試（允許不嚴格意義上的子集）：s 中所有的元素都是 t 的成員

少說話多寫程式碼之Python學習038——建立函式04（函式的使用）二分法查詢

二分法查詢有一個重要前提，就是序列是有序的。在有序的序列中找到一箇中點，然後對比目標元素在中點的哪一側，然後依次這樣查詢，最終找到。邏輯非常簡單。我們主要看在 Python中是如何實現的，直接看程式碼如下， def binarySearch(sequnce,number,lower=0,up

少說話多寫程式碼之Python學習037——建立函式03（函式的使用）遞迴

前面學會了如何建立函式，至於函式引數列表的使用，函式內部作用域，函式過載等等，Python中的函式與其他語言的函式並無不同，所以這裡不再說明。我們一般學習的第一門程式語言大多是C語言，學習C語言我們每每學的都是遞迴，二分查詢，氣泡排序以及各種排序等等。那麼我們選一兩樣看看Python中如何實現

少說話多寫程式碼之Python學習036——建立函式02（函式的註釋）

下面我們看看Python中如何給函式增加註釋，以及如何獲取一個函式的基本資訊。因為Python是解釋執行的語言，增加註釋和檢視函式資訊都需要一些方法實現。如下，定義了一個將字串生成MD5的函式，並且加了註釋，然後可以通過__doc__屬性和help函式來獲取函式的資訊。 import

少說話多寫程式碼之Python學習035——建立函式01（如何定義函式）

不論哪種面嚮物件語言，基礎是類，而類的主要元素是函式。那麼我們看看在Python中如何定義函式，先看一個內建函式callable，判斷函式是否可呼叫。 import math a=1 b=math.sqrt result1=callable(a) print(result1) result

python中的encode（）和decode（）函式

前言：我們知道，計算機是以二進位制為單位的，也就是說計算機只識別0和1,也就是我們平時在電腦上看到的文字，只有先變成0和1，計算機才會識別它的意思。這種資料和二進位制的轉換規則就是編碼。計算機的發展中，有ASCII碼，GBK，Unicode，utf-8編碼。我們先從編碼的發展史瞭解一下編碼的進化過程。

python中的open（）函式

定義： python open() 函式用於開啟一個檔案，建立一個 file 物件，相關的方法才可以呼叫它進行讀寫引數：模式描述 r 以只讀方式開啟檔案。檔案的指標將會放在檔案的開頭。這是預設模式。 rb 以

Python 3 實現數字轉換成Excel列名（10進位制到26進位制的轉換函式）

背景：　　最近在看一些Python爬蟲的相關知識，講爬取的一些資料寫入到Excel表中，當時當列的數目不確定的情況下，如何通過遍歷的方式講爬取的資料寫入到Excel中。開發環境： Python 3 openpyxl 解決方案：Excel列名其實就是一個26進位制的

python初學一（函式與生成器一）

一、函式的基本知識：理解：封裝重複程式碼塊的某種規則，實現一個功能。 1、函式的定義： &

【python】詳解pandas庫的pd.merge函式

本篇詳細說明merge的應用，join 和concatenate的拼接方法的與之相似。 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False

Python標準內建函式（31-35）

1.31 函式id() 在Python程式中，使用函式id()的語法格式如下所示。 id(object) 函式id()的功能是獲取物件object的記憶體地址，這個記憶體地址是一個整數，能夠保證在該物件的生命週期內是唯一的和恆定的。在Python程式中，具有不重疊壽命的兩

Python標準內建函式（26-30）

1.26 函式globals() 在Python程式中，函式globals()的功能是以字典型別返回當前位置的全部全域性變數，也就是返回表示當前全域性符號表的字典。函式globals()總是當前模組的字典，在函式或者方法中，它是指定義的模組而不是呼叫的模組。例如在下面的例項

Python標準內建函式（21-25）

1.21 函式filter() 在Python程式中，函式filter()的功能是過濾序列，過濾掉不符合條件的元素，返回一個filter類。filter類實現了__iter__和__next__方法, 可以看成是一個迭代器, 有惰性運算的特性。使用函式filter()的語法格式如

Python-dataframe合併(merge函式）

相關推薦