pyspark dataframe 常用操作

阿新 • • 發佈：2019-01-03

1、union、unionAll、unionByName，row 合併（上下拼接）

data_all = data_neg.unionByName(data_pos)

2、dataframe 樣本抽樣

data_all.sample(False, 0.5, 1000).count()

3、條件過濾

data_all.filter("label >= 1").count()

4、註冊為臨時表，再使用spark.sql 對dataframe進行操作

res = predictions.select("user_log_acct", split_udf('probability').alias('probability'))

res.registerTempTable("tmp")
spark.sql("insert overwrite table dev.dev_result_temp select user_log_acct,probability from tmp")

spark.stop()

建立和儲存spark dataframe：

spark.createDataFrame(data, schema=None, samplingRatio=None)，直接建立
其中data是行或元組或列表或字典的RDD、list、pandas.DataFrame。

df = spark.createDataFrame([
        (1, 144.5, 5.9, 33, 'M'),
        (2, 167.2, 5.4, 45, 'M'),
        (3, 124.1, 5.2, 23, 'F'),
        (4, 144.5, 5.9, 33, 'M'),
        (5, 133.2, 5.7, 54, 'F'),
        (3, 124.1, 5.2, 23, 'F'),
        (5, 129.2, 5.3, 42, 'M'),
    ], ['id', 'weight', 'height', 'age', 'gender']) #直接建立Dataframe

df = spark.createDataFrame([{'name':'Alice','age':1},
	{'name':'Polo','age':1}]) #從字典建立

schema = StructType([
    StructField("id", LongType(), True),    
    StructField("name", StringType(), True),
    StructField("age", LongType(), True),
    StructField("eyeColor", StringType(), True)
])
df = spark.createDataFrame(csvRDD, schema) #指定schema。

　spark.read 從檔案中讀資料

>>> airports = spark.read.csv(airportsFilePath, header='true', inferSchema='true', sep='\t')
>>> rdd = sc.textFile('python/test_support/sql/ages.csv') #可以用這種方法將用逗號分隔的rdd轉為dataframe
>>> df2 = spark.read.csv(rdd)
>>> df = spark.read.format('json').load('python/test_support/sql/people.json') 
>>> df1 = spark.read.json('python/test_support/sql/people.json')
>>> df1.dtypes
[('age', 'bigint'), ('name', 'string')]
>>> rdd = sc.textFile('python/test_support/sql/people.json')
>>> df2 = spark.read.json(rdd) 
>>> df = spark.read.text('python/test_support/sql/text-test.txt')
>>> df.collect()
[Row(value='hello'), Row(value='this')]
>>> df = spark.read.text('python/test_support/sql/text-test.txt', wholetext=True)
>>> df.collect()
[Row(value='hello\nthis')]

Spark function

1）foreach(f)，應用f函式，將df的每一行作為f函式的輸入

例如：

def f(person):

print(person.name)

df.foreach(f)

2) apply(udf)
3) map(f)，應用f函式，作用物件為rdd的每一行

參考：https://blog.csdn.net/kittyzc/article/details/82862089

pyspark dataframe 常用操作

1、union、unionAll、unionByName，row 合併（上下拼接） data_all = data_neg.unionByName(data_pos) 2、dataframe 樣本抽樣 data_all.sample(False, 0.5, 1000).count() 3、條件過濾

學習隨筆--pyspark RDD常用操作

-- port asm mas 單獨進行 ces group odin # -*- coding:utf-8 -*- from pyspark import SparkContext, SparkConf from pyspark.streaming import St

dataframe常用操作圖譜

最近python處理資料用dataframe用的比較多，經常遇到一些操作需要上網查詢，看看用什麼方法比較快捷，故在此將一些常用的操作做成一個圖譜，並簡單介紹了一些方法的使用，最開始是想方便自己，貼在這裡

pyspark cookbook 常用操作

Access SparkSession from pyspark.sql import SparkSession # get the default SparkSession instance spark = SparkSession.builder.getOrCre

Python：pandas之DataFrame常用操作

定義一個df： dates = pd.date_range('20180101', periods=6) df = pd.DataFrame(np.arange(24).reshape(6, 4), index=dates, columns=['A', 'B', 'C', 'D']) p

R 語言的Dataframe常用操作

很多 self arr 多參數 creat 說過對數 att 普通上節我們簡單介紹了Dataframe的定義，這節我們具體來看一下Dataframe的操作首先，數據框的創建函數為 data.frame( )，參考R語言的幫助文檔，我們來了解一下data.frame(

Pandas DataFrame常用操作

DataFrame.median() 取中位數 DataFrame.loc[行標籤，列標籤] 選取資料，第一個值為行標籤，第二值為列標籤 DataFrame.iloc[行位置，列位置] pandas.read_csv() DataFrame.to_csv() Dat

#python#DataFrame 時間序列資料處理常用操作

有X個機組以15分鐘為步長的長系列（年月日時分）出力的資料，想處理成每個機組的，以“年月日”為索引值，每行顯示1天96個點出力的形式。先利用df.head()把dataframe按96切割成Y份，然後將Y份的第x列（x號機組的出力）提取出來，放到list裡，再利用concat

Pandas DataFrame 的常用操作總結

預備: 隨便搞一個DataFrame 出來先！！！ import numpy as np import pandas as pd data = {'city': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Hangzhou', 'Ch

spark.dataframe的一些常用操作(Scala)

前言說起dataframe，大家一般會首先想起pandas.dataframe。隨著資料科學越來越火熱，大部分同學都使用過python去進行一些資料科學的實踐，也應該會對dataframe的簡單易用頗有好感。然而pandas只能用於處理單機問題，面對工業級的海量資料處理和計算，就顯得

python：pandas模組中的DataFrame結構及常用操作

轉載：http://blog.csdn.net/u014607457/article/details/51290582 1. 介紹 DataFrame unifies two or more Series into a single data structure.Ea

PySpark︱DataFrame操作指南：增/刪/改/查/合併/統計與資料處理

筆者最近需要使用pyspark進行資料整理，於是乎給自己整理一份使用指南。pyspark.dataframe跟pandas的差別還是挺大的。 1、——– 查 ——– — 1.1 行元素查詢操作 — 像SQL那樣列印列表前20元素 sho

byte 常用操作

exceptio cat 移動 ror 位置 all const 長度 ear /** * 低位在前，高位在後 * * @param data * @return */ private byte[] intToBytes(int value) {

Rancher常用操作及名詞概念解析

開發隔離用戶登錄項目組做什麽前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

Rancher常用操作及名詞解析

用戶登錄項目組做什麽開發隔離前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

VPS常用操作（自用）

stat art ado ssserver exe 常用 gin lsp sse 1.screen 用來開啟進程，關閉ssh或命令行後扔可以繼續運行 screen screen -list screen -r xx screen -S PID -X quit 2.

redis的五大數據類型以及與 key 關鍵字相關的常用操作命令

redis數據類型 key關鍵字相關的指令 redis學習 1、redis的五大數據類型：先來看看redis官方網上文檔的介紹：這裏簡單地說，就是redis不是一個普通的 key-value 存儲，而是一個數據結構服務器，支持各種不同類型的值，這

SQL Server 常用操作XML

man 刪除節點操作 ble rep 插入 mman varchar lis --修改FunctionNo節點值，@OperateFunctionNo為參數 set @DataXml.modify(‘replace value of (/CrudData/Functio

SAS編程基礎 - 菜鳥入門常用操作

強制 http ctrl+s 技術分享 shift 菜鳥 ctr 編輯菜鳥入門 1. SAS9.4添加和取消註釋的快捷鍵？ Ctrl+/：添加註釋 Ctrl+Shift+/：取消註釋 2. 如何強制終止程序運行？

DB2 建表，添加字段，刪除字段，修改字段等常用操作

varchar 查看 ble col har 同時 int 添加建數據庫轉載：http://blog.sina.com.cn/s/blog_67aaf4440100v01p.html，稍作修改。 --創建數據庫 create database Etp; --連接數據庫

pyspark dataframe 常用操作

建立和儲存spark dataframe：

Spark function

相關推薦