pandas dataframe 中的explode函式用法詳解

阿新 • • 發佈：2020-05-19

在使用 pandas 進行資料分析的過程中，我們常常會遇到將一行資料展開成多行的需求，多麼希望能有一個類似於 hive sql 中的 explode 函式。

這個函式如下：

Code

# !/usr/bin/env python
# -*- coding:utf-8 -*-
# create on 18/4/13
import pandas as pd

def dataframe_explode(dataframe,fieldname): 
 temp_fieldname = fieldname + '_made_tuple_' 
 dataframe[temp_fieldname] = dataframe[fieldname].apply(tuple)  
 list_of_dataframes = []
 for values in dataframe[temp_fieldname].unique().tolist(): 
  list_of_dataframes.append(pd.DataFrame({
   temp_fieldname: [values] * len(values),fieldname: list(values),}))
 dataframe = dataframe[list(set(dataframe.columns) - set([fieldname]))].merge(pd.concat(list_of_dataframes),how='left',on=temp_fieldname) 
 del dataframe[temp_fieldname]
 return dataframe

df = pd.DataFrame({'listcol':[[1,2,3],[4,5,6]],"aa": [222,333]})
df = dataframe_explode(df,"listcol")

Description

將 dataframe 按照某一指定列進行展開，使得原來的每一行展開成一行或多行。( 注：該列可迭代，例如list,tuple,set)

補充知識：Pandas列中的字典/列表拆分為單獨的列

我就廢話不多說了，大家還是直接看程式碼吧

[1] df
Station ID  Pollutants
8809   {"a": "46","b": "3","c": "12"}
8810   {"a": "36","b": "5","c": "8"}
8811   {"b": "2","c": "7"}
8812   {"c": "11"}
8813   {"a": "82","c": "15"}

Method 1：

step 1: convert the Pollutants column to Pandas dataframe series

df_pol_ps = data_df['Pollutants'].apply(pd.Series)

df_pol_ps:
 a b c
0 46 3 12
1 36 5 8
2 NaN 2 7
3 NaN NaN 11
4 82 NaN 15

step 2: concat columns a,b,c and drop/remove the Pollutants

df_final = pd.concat([df,df_pol_ps],axis = 1).drop('Pollutants',axis = 1)

df_final:
 StationID a b c
0 8809 46 3 12
1 8810 36 5 8
2 8811 NaN 2 7
3 8812 NaN NaN 11
4 8813 82 NaN 15

Method 2：

df_final = pd.concat([df,df['Pollutants'].apply(pd.Series)],axis = 1)

df_final:
 StationID a b c
0 8809 46 3 12
1 8810 36 5 8
2 8811 NaN 2 7
3 8812 NaN NaN 11
4 8813 82 NaN 15

以上這篇pandas dataframe 中的explode函式用法詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

pandas dataframe 中的explode函式用法詳解

在使用 pandas 進行資料分析的過程中，我們常常會遇到將一行資料展開成多行的需求，多麼希望能有一個類似於 hive sql 中的 explode 函式。

Pandas中loc和iloc函式用法詳解（原始碼+例項）

loc函式：通過行索引 \"Index\" 中的具體值來取行資料（如取\"Index\"為\"A\"的行）

pytorch中torch.max和Tensor.view函式用法詳解

torch.max() 1. torch.max()簡單來說是返回一個tensor中的最大值。例如： >>> si=torch.randn(4,5)

Pytorch 中retain_graph的用法詳解

用法分析在檢視SRGAN原始碼時有如下損失函式，其中設定了retain_graph=True,其作用是什麼？

PyTorch中permute的用法詳解

permute(dims) 將tensor的維度換位。引數：引數是一系列的整數，代表原來張量的維度。比如三維就有0，1，2這些dimension。

python numpy中cumsum的用法詳解

Cumsum ：計算軸向元素累加和，返回由中間結果組成的陣列重點就是返回值是“由中間結果組成的陣列”

Python range、enumerate和zip函式用法詳解

前言 range函式可建立一個整數列表。如果需要知道當前元素在列表中的索引，推薦用enumerate代替range。

Python的Lambda函式用法詳解

在Python中有兩種函式，一種是def定義的函式，另一種是lambda函式，也就是大家常說的匿名函式。今天我就和大家聊聊lambda函式，在Python程式設計中，大家習慣將其稱為表示式。

Python 中@property的用法詳解

在繫結屬性時，如果我們直接把屬性賦值給物件，比如： p = Person() p.name= \'Mary\'

Python中itertools的用法詳解

iterator 迴圈器(iterator)是物件的容器，包含有多個物件。通過呼叫迴圈器的next()方法 (next()方法，在Python 3.x中)，迴圈器將依次返回一個物件。直到所有的物件遍歷窮盡，迴圈器將舉出StopIteration錯誤。

python yield和Generator函式用法詳解

這篇文章主要介紹了python yield和Generator函式用法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python isinstance函式用法詳解

這篇文章主要介紹了python isinstance函式用法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

C++中getline()的用法詳解

getline()用法 getline是C++標準庫函式；它有兩種形式，一種是標頭檔案< istream >中輸入流成員函式；一種在標頭檔案< string >中普通函式；

Python類中self引數用法詳解

Python編寫類的時候，每個函式引數第一個引數都是self，一開始我不管它到底是幹嘛的，只知道必須要寫上。後來對Python漸漸熟悉了一點，再回頭看self的概念，似乎有點弄明白了。

C++ min/max_element 函式用法詳解

同樣是O(n)複雜度，但是經過不嚴謹測試，使用庫函式的速度遠超for迴圈的遍歷找最值

java優先佇列PriorityQueue中Comparator的用法詳解

在使用java的優先佇列PriorityQueue的時候，會看到這樣的用法。 PriorityQueue<Integer> queue = new PriorityQueue<Integer>(new Comparator<Integer>(){

Django中的session用法詳解

一、Session 的概念 cookie 是在瀏覽器端儲存鍵值對資料，而 session 是在伺服器端儲存鍵值對資料 session 的使用依賴 cookie：在使用 Session 後，會在 Cookie 中儲存一個 sessionid 的資料，每次請求時瀏覽器都會將

JavaScript 函式用法詳解【函式定義、引數、繫結、作用域、閉包等】

本文例項講述了JavaScript 函式用法。分享給大家供大家參考，具體如下：初始函式

PHP函式用法詳解【初始化、巢狀、內建函式等】

本文例項講述了PHP函式用法。分享給大家供大家參考，具體如下：初始函式函式：封裝一段用於完成特定功能的程式碼。

Python3爬蟲中Selenium的用法詳解

Selenium是一個自動化測試工具，利用它可以驅動瀏覽器執行特定的動作，如點選、下拉等操作，同時還可以獲取瀏覽器當前呈現的頁面的原始碼，做到可見即可爬。對於一些JavaScript動態渲染的頁面來說，此種抓取方式非常