在spark dataFrame 中使用 pandas dataframe

阿新 • • 發佈：2018-12-13

文章目錄

背景
xgboost 預測
toPandas
效果

xgboost 預測
spark dataframe 轉 pandas dataframe

背景

項	pandas	spark
工作方式	單機，無法處理大量資料	分散式，能處理大量資料
儲存方式	單機快取	可以呼叫 persist/cache 分散式快取
是否可變	是	否
index索引	自動建立	無索引
行結構	Pandas.Series	Pyspark.sql.Row
列結構	Pandas.Series	Pyspark.sql.Column
允許列重名	否	是

pandas dataFrame 無法支援大量資料的計算，可以嘗試 spark df 來解決這個問題。

xgboost 預測

優化前

import xgboost as xgb
import pandas as pd
import numpy as np

# 載入模型
bst = xgb.Booster()
bst.load_model("xxx.model")

# 變數列表
var_list=[...]
df.rdd.map(lambda x : cal_xgb_score(x,var_list,ntree_limit=304)).write.toDF()

# 計算分數
def cal_xgb_score(x,var_list,ntree_limit=50):
    feature_count = 
 len(var_list)
    x1 = pd.DataFrame(np.array(x).reshape(1,feature_count),columns=var_list)
    # 資料變化操作
    y1 = transformFun(x1)
    
    test_x = xgb.DMatrix(y1.drop(['mobile','mobile_md5'],xais=1),missing=float('nan'))
    y1['score'] = bst.predict(test_x,ntree_limit=ntree_limit)
    y2 = y1[['mobile','mobile_md5','score']]
    return {'mobile': str(y2['mobile'][0]),'mobille_md5':str(y2['mobile_md5'][0]),'score':float(y2['score'][0])}

每條資料都轉化為 pd，增加了額外開銷。

優化後

def cal_xgb_score(x,var_list,ntree_limit=50):
    feature_count = len(var_list)
    //將 iterator 轉為list 
    x1 = pd.DataFrame(list(x),columns=var_list)
    ...
    //將 pdf 轉為字典
    return y1[['mobile','mobile_md5','score']].to_dict(orient='record')

toPandas

優化前

df.toPandas()

優化後

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def toPandas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand

# 98列，22W行，型別 array/string/Long/Int，分割槽 200
df = spark.sql("...").sample(False,0.002)

df.cache()
df.count()

# 原生的 toPandas 方法
%timeit df.toPandas()

# 分散式的 toPandas
%timeit toPandas(df)

#使用 apache arrow，spark 版本2.3以上
spark.sql("set spark.sql.execution.arrow.enabled=true")
%timeit df.toPandas()

效果

xgboost 預測

單條資料處理速度從 120 record / min 提高到 3278 record / min

tips: 如果一個分割槽資料量過大將會導致 executor oom

spark dataframe 轉 pandas dataframe

type	cost (seconds)
native toPandas	12
distributed toPandas	5.91
arrow toPandas	2.52

toPandas 返回的資料歸根結底還是快取在 driver 的記憶體中的，不建議返回過大的資料。

Python中pandas dataframe刪除一行或一列：drop函式

用法：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 在這裡預設：axis=0，指刪除index，因此刪除columns時要指定axis=1； inplace=False，預設該刪除操作不

python中pandas.DataFrame對行與列求和及新增新行與列示例

本文介紹的是python中pandas.DataFrame對行與列求和及新增新行與列的相關資料，下面話不多說，來看看詳細的介紹吧。方法如下：匯入模組： ? 1 2 3 from pandas import DataFrame import panda

Spark DataFrame 與Pandas DataFrame差異

為何使用pyspark dataframe 使用pandas進行資料處理，dataframe常作為主力軍出現。基於單機操作的pandas dataframe是一種表格形資料結構，擁有豐富、靈活、操作簡單的api，在資料量不大的情況下有較好的效果。對於大資料量的運算，分散式計算能突破

pyspark.sql.DataFrame與pandas.DataFrame之間的相互轉換

程式碼如下，步驟流程在程式碼註釋中可見： # -*- coding: utf-8 -*- import pandas as pd from pyspark.sql import SparkSession from pyspark.sql import SQLContext

在spark dataFrame 中使用 pandas dataframe

文章目錄背景 xgboost 預測 toPandas 效果 xgboost 預測 spark dataframe 轉 pandas dataframe 背景

[Spark][Python]DataFrame中取出有限個記錄的例子

dep ins pytho rem json.js art hadoop fileinput taskset [Spark][Python]DataFrame中取出有限個記錄的例子： sqlContext = HiveContext(sc) peopleDF = sql

Spark SQL中 RDD 轉換到 DataFrame

pre ase replace 推斷 expr context 利用反射轉換 port 1.people.txtsoyo8, 35小周, 30小華, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射機制推斷RDD

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

python3 ks檢驗求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用

需求是這樣的：將兩個資料集進行ks檢驗，算中位數方差標準差等資料，最後輸出到資料庫中 import psycopg2 import os import pandas as pd from scipy.stats import ks_2samp import numpy as np from

[問題解決]pandas DataFrame中經常出現SettingWithCopyWarning

先從原dataframe取出一個子dataframe，然後再對其中的元素賦值，例如 s = d[d['col_1'] == 0] s.loc[:, 'col_2'] = 1 就會出現報錯: SettingWithCopyWarning: A value is trying to be set on a c

pandas將DataFrame中的tuple分割成資料框的多列

通過apply(pd.Series)實現將tuple進行分列 df = pd.DataFrame({'a':[1,2], 'b':[(1,2), (3,4)]}) df['b'].apply(pd.Series) df[['b1', 'b2']] = df['b'].apply(pd.S

pandas.DataFrame()中的iloc和loc用法

簡單的說： iloc，即index locate 用index索引進行定位，所以引數是整型，如：df.iloc[10:20, 3:5] loc，則可以使用column名和index名進行定位，如： df.loc[‘image1’:‘image10’, ‘age’:‘score’] 例項：

Pandas過濾dataframe中包含特定字串的資料

假如有一列全是字串的dataframe，希望提取包含特定字元的所有資料，該如何提取呢？因為之前嘗試使用filter，發現行不通，最終找到這個行得通的方法。舉例說明：我希望提取所有包含'Mr.'的人名 1、首先將他們進行字串化，並得到其對應的布林值： >>&

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

【python】詳解pandas.DataFrame.plot( ) 中引數secondary_y實現雙座標軸使用

首先看官網的DataFrame.plot( )函式 secondary_y : boolean or sequence, default False # 可以是布林值或者是數列 Whether to plot on the secondary y-axis

pandas中關於DataFrame行，列顯示不全（省略）的解決辦法

有時候DataFrame中的行列數量太多，print打印出來會顯示不完全。就像下圖這樣：列顯示不全：行顯示不全：新增如下程式碼，即可解決。 #顯示所有列 pd.set_option('display.max_columns', None) #顯示所有行 pd.set_opt

pandas中關於DataFrame 去除省略號

ram div 長度 das frame splay 顯示長度 option wid #顯示所有列 pd.set_option(‘display.max_columns‘, None) #顯示所有行 pd.set_option(‘display.max_rows‘

用pandas中的DataFrame時選取行或列

用pandas中的DataFrame時選取行或列 import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = Data

使用正則表示式和json.loads,將JSON檔案中的資料轉化為pandas.DataFrame

使用正則表示式和json.loads,將JSON檔案中的資料轉化為pandas.DataFrame 說在前面在使用Scrapy框架（爬蟲框架）爬取網頁資訊時，會定義一個ITEMS，然後通過PIPLINE將資料寫入到JSON檔案中，如果是按行寫入，則最後得到的資料就不是一個標準J

Python3學習（三十四）：python從mongo中取資料，使用pandas.DataFrame進行列操作並轉字典

使用該操作的具體場景（一般與mongo相結合）：比如mongo中存了幾萬條資料，需要將mongo中的資料取出來，並對其中的一列進行相關操作，最後轉化為字典格式。具體程式碼實現如下： import pandas as pd import pymongo import

在spark dataFrame 中使用 pandas dataframe

文章目錄

背景

xgboost 預測

toPandas

效果

xgboost 預測

spark dataframe 轉 pandas dataframe

相關推薦