PANDAS 資料合併與重塑（join/merge篇)

阿新 • • 發佈：2019-01-06

merge

pandas的merge方法提供了一種類似於SQL的記憶體連結操作，官網文件提到它的效能會比其他開源語言的資料操作（例如R）要高效。

和SQL語句的對比可以看這裡

merge的引數

on：列名，join用來對齊的那一列的名字，用到這個引數的時候一定要保證左表和右表用來對齊的那一列都有相同的列名。

left_on：左表對齊的列，可以是列名，也可以是和dataframe同樣長度的arrays。

right_on：右表對齊的列，可以是列名，也可以是和dataframe同樣長度的arrays。

left_index/ right_index: 如果是True的haunted以index作為對齊的key

how：資料融合的方法。

sort：根據dataframe合併的keys按字典順序排序，預設是，如果置false可以提高表現。

merge的預設合併方法：
    merge用於表內部基於 index-on-index 和 index-on-column(s) 的合併，但預設是基於index來合併。

1.1 複合key的合併方法

使用merge的時候可以選擇多個key作為複合可以來對齊合併。

1.1.1 通過on指定資料合併對齊的列

In [41]: left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
   ....:                      'key2' 
: ['K0', 'K1', 'K0', 'K1'],
   ....:                      'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3']})
   ....: 

In [42]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
   ....:                       'key2': ['K0', 'K0', 'K0', 'K0'],
   ....:                       'C' 
: ['C0', 'C1', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D1', 'D2', 'D3']})
   ....: 

In [43]: result = pd.merge(left, right, on=['key1', 'key2'])

這裡寫圖片描述
沒有指定how的話預設使用inner方法。

how的方法有：

left

只保留左表的所有資料

In [44]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

這裡寫圖片描述

right

只保留右表的所有資料

In [45]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])

這裡寫圖片描述

outer

保留兩個表的所有資訊

In [46]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

這裡寫圖片描述

inner

只保留兩個表中公共部分的資訊

In [47]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])

這裡寫圖片描述

1.2 indicator

v0.17.0 版本的pandas開始還支援一個indicator的引數，如果置True的時候，輸出結果會增加一列 ’ _merge’。_merge列可以取三個值

left_only 只在左表中
right_only 只在右表中
both 兩個表中都有

1.3 join方法

dataframe內建的join方法是一種快速合併的方法。它預設以index作為對齊的列。

1.3.1 how 引數

join中的how引數和merge中的how引數一樣，用來指定表合併保留資料的規則。

具體可見前面的 how 說明。

1.3.2 on 引數

在實際應用中如果右表的索引值正是左表的某一列的值，這時可以通過將右表的索引和左表的列對齊合併這樣靈活的方式進行合併。

ex 1

In [59]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   ....:                      'key': ['K0', 'K1', 'K0', 'K1']})
   ....: 

In [60]: right = pd.DataFrame({'C': ['C0', 'C1'],
   ....:                       'D': ['D0', 'D1']},
   ....:                       index=['K0', 'K1'])
   ....: 

In [61]: result = left.join(right, on='key')

這裡寫圖片描述

1.3.3 suffix字尾引數

如果和表合併的過程中遇到有一列兩個表都同名，但是值不同，合併的時候又都想保留下來，就可以用suffixes給每個表的重複列名增加字尾。

In [79]: result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])

這裡寫圖片描述

*　另外還有lsuffix 和 rsuffix分別指定左表的字尾和右表的字尾。

1.4 組合多個dataframe

一次組合多個dataframe的時候可以傳入元素為dataframe的列表或者tuple。一次join多個，一次解決多次煩惱~

In [83]: right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])

In [84]: result = left.join([right, right2])

這裡寫圖片描述

1.5 更新表的nan值

1.5.1 combine_first

如果一個表的nan值，在另一個表相同位置（相同索引和相同列）可以找到，則可以通過combine_first來更新資料

1.5.2 update

如果要用一張表中的資料來更新另一張表的資料則可以用update來實現

1.5.3 combine_first 和 update 的區別

使用combine_first會只更新左表的nan值。而update則會更新左表的所有能在右表中找到的值（兩表位置相對應）。

示例程式碼參考來源——官網

PANDAS 資料合併與重塑（join/merge篇)

merge pandas的merge方法提供了一種類似於SQL的記憶體連結操作，官網文件提到它的效能會比其他開源語言的資料操作（例如R）要高效。和SQL語句的對比可以看這裡 merge的引數 on：列名，join用來對齊的那一列的名字，用到這個引數的時候一定要

pandas資料合併與重塑（pd.concat篇）

1 concat concat函式是在pandas底下的方法，可以將資料根據不同的軸作簡單的融合 1 2 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,

PANDAS 資料合併與重塑（concat篇）

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中對pandas的方方面面都有了一個權威簡明的入門級的介紹，但在實際使用過程中，我發現書中的內容還只是冰山一角。談到pandas資料的行更新、表合併等操作，一般用到的

【pandas】[3] DataFrame 資料合併，連線（merge,join,concat)

作者：lianghc merge 通過鍵拼接列 pandas提供了一個類似於關係資料庫的連線(join)操作的方法<Strong>merage</Strong>,可以根據一個或多個鍵將不同DataFrame中的行連線起來語法如下 merge(l

【轉】PANDAS 數據合並與重塑（concat篇）

分享 levels 不同的整理 con 簡單 post ignore num 轉自：http://blog.csdn.net/stevenkwong/article/details/52528616 1 concat concat函數是在pandas底下的方法，可以將數據

資料結構與演算法（二）合併兩個有序連結串列

附上部落格連結，歡迎大家前來交流學習本系列的第一節概括性地簡單介紹了一下資料結構和演算法的概念，說實話有點虛，因為誰都知道連結串列和陣列是什麼，也都能說出雜湊和二叉樹，但真正有難度的是，在實際開發中如何去用這些資料結構，根據不同的開發需求選擇不同的資料結構和

python-資料分析與展示（Numpy、matplotlib、pandas）---2

筆記內容整理自mooc上北京理工大學嵩天老師python系列課程資料分析與展示，本人小白一枚，如有不對，多加指正 1.python自帶的影象庫PIL 1.1常用API Image.open() Image.fromarray() im.save()

【A-003】python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫（四）DataFrame資料結構

pandas資料結構：DataFrame 引入：在上一節中已經介紹過了Series物件，Series物件可以理解為由一列索引和一列值，共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構，其中，在DataFrame中的每一列都是一個S

為什麼我要放棄javaScript資料結構與演算法（第一章）—— JavaScript簡介

資料結構與演算法一直是我算比較薄弱的地方，希望通過閱讀《javaScript資料結構與演算法》可以有所改變，我相信接下來的記錄不單單對於我自己有幫助，也可以幫助到一些這方面的小白，接下來讓我們一起學習。第一章 JavaScript簡介眾所周知，JavaScript是一門非常強大的程式語言，不僅可以用於

為什麼我要放棄javaScript資料結構與演算法（第三章）—— 棧

有兩種結構類似於陣列，但在新增和刪除元素時更加可控，它們就是棧和佇列。第三章棧棧資料結構棧是一種遵循後進先出（LIFO）原則的有序集合。新新增的或待刪除的元素都儲存在棧的同一端，稱為棧頂，另一端就叫做棧底。在棧裡，新元素都靠近棧頂，舊元素都接近棧底。棧也被用在程式語言的編譯器和記憶體中儲存

資料結構與演算法（二）--遞迴

遞迴條件： 1.遞迴條件：每次調自己，然後記錄當時的狀態 2.基準條件：執行到什麼時候結束遞迴，不然遞迴就會無休止的呼叫自己，遞迴的資料結構：棧（先進先出）和彈夾原理一樣，每一次呼叫自己都記錄了當時的一種狀態，然後把這種狀態的結果返回。棧相對應的資料結構：佇列（先進後出

為什麼我要放棄javaScript資料結構與演算法（第五章）—— 連結串列

這一章你將會學會如何實現和使用連結串列這種動態的資料結構，這意味著我們可以從中任意新增或移除項，它會按需進行擴張。本章內容連結串列資料結構向連結串列新增元素從連結串列移除元素使用 LinkedList 類雙向連結串列迴圈連結串列第五章連結串列連結串列資

學習JavaScript資料結構與演算法（第2版）.epub

【下載地址】本書首先介紹了JavaScript 語言的基礎知識以及ES6 和ES7 中引入的新功能，接下來討論了陣列、棧、佇列、連結串列、集合、字典、散列表、樹、圖等資料結構，之後探討了各種排序和搜尋演算法，包括氣泡排序、選擇排序、插入排序、歸併排序、快速排序、堆排序、

資料結構與演算法（2）—— 棧（java）

1 棧的實現 1.1 簡單陣列實現棧 package mystack; public class ArrayStack { private int top; //當前棧頂元素的下標 private int[] array; public ArraySt

pandas 資料聚合與分組運算

1. GroupBy技術 pandas物件(無論是Series、DataFrame還是其他的)中的資料會根據你所提供的一個或多個鍵被拆分(split)為多組。拆分操作是在物件的特定軸上執行的。例如：DataFrame可以在其行(axis=0)或列(axis=1)上進行分組，然後將一個函式應用

Python-資料結構與演算法（十一、字典（對映）——基於兩種不同的底層實現）

保證一週更兩篇吧，以此來督促自己好好的學習！程式碼的很多地方我都給予了詳細的解釋，幫助理解。好了，幹就完了～加油！宣告：本python資料結構與演算法是imooc上liuyubobobo老師java資料結構的python改寫，並添加了一些自己的理解和新的東西，liuyubobobo

3D引擎資料結構與glTF（1）：簡介

不是有句老話講“程式 = 演算法 + 資料結構”嘛，對於3D引擎來說也是這樣。學習和掌握3D引擎中的核心資料有哪些，它們直接的關係是怎樣等等問題，對於理解3D引擎的架構和圖形渲染關係都有著非常大的幫助。然而，現在的商業3D引擎非常複雜，想要通過學習其原始碼嘛非常困難，那麼你就這樣放棄了嗎

3D引擎資料結構與glTF（2）: Scene Graph

圖形學中的 Scene Graph Scene Graph 中文常翻譯為“場景圖”，是一種常用的場景物件組織方式。我們把場景中的物件，按照一定的規則（通常是空間關係）組織成一棵樹，樹上的每個節點代表場景中的一個物件。每個節點都可以有零到多個子節點，但只有一個父節點。每個節點都包含一

為什麼我要放棄javaScript資料結構與演算法（第十章）—— 排序和搜尋演算法

本章將會學習最常見的排序和搜尋演算法，如氣泡排序、選擇排序、插入排序、歸併排序、快速排序和堆排序，以及順序排序和二叉搜尋演算法。第十章排序和搜尋演算法排序演算法我們會從一個最慢的開始，接著是一些效能好一些的方法先建立一個數組（列表）來表示待排序和搜尋的資料結構。 function Arra

為什麼我要放棄javaScript資料結構與演算法（第十一章）—— 演算法模式

本章將會學習遞迴、動態規劃和貪心演算法。第十一章演算法模式遞迴遞迴是一種解決問題的方法，它解決問題的各個小部分，直到解決最初的大問題。遞迴通常涉及函式呼叫自身。遞迴函式是像下面能夠直接呼叫自身的方式或函式 function recursiveFunction(someParam){

PANDAS 資料合併與重塑（join/merge篇)

merge

1.1 複合key的合併方法

1.1.1 通過on指定資料合併對齊的列

left

right

outer

inner

1.2 indicator

1.3 join方法

1.3.1 how 引數

1.3.2 on 引數

1.3.3 suffix字尾引數

1.4 組合多個dataframe

1.5 更新表的nan值

1.5.1 combine_first

1.5.2 update

1.5.3 combine_first 和 update 的區別

相關推薦