pyspark系列--讀寫dataframe

阿新 • • 發佈：2019-01-27

1. 連線spark

from pyspark.sql import SparkSession

spark=SparkSession \
        .builder \
        .appName('my_first_app_name') \
        .getOrCreate()

2. 建立dataframe

2.1. 從變數建立

# 生成以逗號分隔的資料
stringCSVRDD = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (234 
, "Michael", 22, "green"),
    (345, "Simone", 23, "blue")
])
# 指定模式, StructField(name,dataType,nullable)
# 其中：
#   name: 該欄位的名字，
#   dataType：該欄位的資料型別，
#   nullable: 指示該欄位的值是否為空
from pyspark.sql.types import StructType, StructField, LongType, StringType  # 匯入型別

schema = StructType([
    StructField("id" 
, LongType(), True),
    StructField("name", StringType(), True),
    StructField("age", LongType(), True),
    StructField("eyeColor", StringType(), True)
])

# 對RDD應用該模式並且建立DataFrame
swimmers = spark.createDataFrame(stringCSVRDD,schema)

# 利用DataFrame建立一個臨時檢視
swimmers.registerTempTable("swimmers")

# 檢視DataFrame的行數 

swimmers.count()

2.2. 從變數建立

# 使用自動型別推斷的方式建立dataframe

data = [(123, "Katie", 19, "brown"),
        (234, "Michael", 22, "green"),
        (345, "Simone", 23, "blue")]
df = spark.createDataFrame(data, schema=['id', 'name', 'age', 'eyccolor'])
df.show()
df.count()

2.3. 讀取json

# 讀取spark下面的示例資料

file = r"D:\hadoop_spark\spark-2.1.0-bin-hadoop2.7\examples\src\main\resources\people.json"
df = spark.read.json(file)
df.show()

2.4. 讀取csv

# 先建立csv檔案
import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.rand(5,5),columns=['a','b','c','d','e']).\
    applymap(lambda x: int(x*10))
file=r"D:\hadoop_spark\spark-2.1.0-bin-hadoop2.7\examples\src\main\resources\random.csv"
df.to_csv(file,index=False)

# 再讀取csv檔案
monthlySales = spark.read.csv(file, header=True, inferSchema=True)
monthlySales.show()

2.5. 讀取MySQL

# 此時需要將mysql-jar驅動放到spark-2.2.0-bin-hadoop2.7\jars下面
# 單機環境可行，叢集環境不行
# 重新執行
df = spark.read.format('jdbc').options(
    url='jdbc:mysql://127.0.0.1',
    dbtable='mysql.db',
    user='root',
    password='123456' 
    ).load()
df.show()

# 也可以傳入SQL語句

sql="(select * from mysql.db where db='wp230') t"
df = spark.read.format('jdbc').options(
    url='jdbc:mysql://127.0.0.1',
    dbtable=sql,
    user='root',
    password='123456' 
    ).load()
df.show()

2.6. 從pandas.dataframe建立

# 如果不指定schema則用pandas的列名
df = pd.DataFrame(np.random.random((4,4)))
spark_df = spark.createDataFrame (df,schema=['a','b','c','d'])

2.7. 從列式儲存的parquet讀取

# 讀取example下面的parquet檔案
file=r"D:\apps\spark-2.2.0-bin-hadoop2.7\examples\src\main\resources\users.parquet"
df=spark.read.parquet(file)
df.show()

2.8. 從hive讀取

# 如果已經配置spark連線hive的引數，可以直接讀取hive資料
spark = SparkSession \
        .builder \
        .enableHiveSupport() \      
        .master("172.31.100.170:7077") \
        .appName("my_first_app_name") \
        .getOrCreate()

df=spark.sql("select * from hive_tb_name")
df.show()

3. 儲存資料

3.1. 寫到csv

# 建立dataframe
import numpy as np
df = pd.DataFrame(np.random.random((4, 4)),columns=['a', 'b', 'c', 'd'])
spark_df = spark.createDataFrame(df)

# 寫到csv
file=r"D:\apps\spark-2.2.0-bin-hadoop2.7\examples\src\main\resources\test.csv"
spark_df.write.csv(path=file, header=True, sep=",", mode='overwrite')

3.2. 儲存到parquet

# 建立dataframe
import numpy as np
df = pd.DataFrame(np.random.random((4, 4)),columns=['a', 'b', 'c', 'd'])
spark_df = spark.createDataFrame(df)

# 寫到parquet
file=r"D:\apps\spark-2.2.0-bin-hadoop2.7\examples\src\main\resources\test.parquet"
spark_df.write.parquet(path=file,mode='overwrite')

3.3. 寫到hive

# 開啟動態分割槽
spark.sql("set hive.exec.dynamic.partition.mode = nonstrict")
spark.sql("set hive.exec.dynamic.partition=true")

# 使用普通的hive-sql寫入分割槽表
spark.sql("""
    insert overwrite table ai.da_aipurchase_dailysale_hive 
    partition (saledate) 
    select productid, propertyid, processcenterid, saleplatform, sku, poa, salecount, saledate 
    from szy_aipurchase_tmp_szy_dailysale distribute by saledate
    """)

# 或者使用每次重建分割槽表的方式
jdbcDF.write.mode("overwrite").partitionBy("saledate").insertInto("ai.da_aipurchase_dailysale_hive")
jdbcDF.write.saveAsTable("ai.da_aipurchase_dailysale_hive", None, "append", partitionBy='saledate')

# 不寫分割槽表，只是簡單的匯入到hive表
jdbcDF.write.saveAsTable("ai.da_aipurchase_dailysale_for_ema_predict", None, "overwrite", None)

3.4. 寫到hdfs

# 資料寫到hdfs，而且以csv格式儲存
jdbcDF.write.mode("overwrite").options(header="true").csv("/home/ai/da/da_aipurchase_dailysale_for_ema_predict.csv")

3.5. 寫到mysql

# 會自動對齊欄位，也就是說，spark_df 的列不一定要全部包含MySQL的表的全部列才行

# overwrite 清空表再匯入
spark_df.write.mode("overwrite").format("jdbc").options(
    url='jdbc:mysql://127.0.0.1',
    user='root',
    password='123456',
    dbtable="test.test",
    batchsize="1000",
).save()

# append 追加方式
spark_df.write.mode("append").format("jdbc").options(
    url='jdbc:mysql://127.0.0.1',
    user='root',
    password='123456',
    dbtable="test.test",
    batchsize="1000",
).save()

pyspark系列--讀寫dataframe

目錄 1. 連線spark from pyspark.sql import SparkSession spark=SparkSession \ .builder \ .appName('my_first_

[Python 3系列]讀寫文件

file文件路徑文件有兩個關鍵屬性：“文件名”和“路徑”。路徑指明了文件在計算機上的位置。在windows上，路徑書寫使用倒斜杠作為文件夾之間的分隔符。但在OS X和Linux上，使用正斜杠作為它們的路徑分隔符。如果想要程序運行在所有操作系統上，在編寫python腳本時，必須處理這兩種情況。如果將單個文件和路

Python學習筆記系列——讀寫文件以及敏感詞過濾器的實現

pict user tro users 創建 desktop enc 重建文件一、讀文件 #打開文件，傳入文件名和標識符，r代表讀 f= open(‘\\Users\ZC\Desktop\zc.txt‘,‘r‘) #調用read方法一次性讀取文件的全部內容，存

Python學習筆記系列——讀寫檔案以及敏感詞過濾器的實現

一、讀檔案 #開啟檔案，傳入檔名和識別符號，r代表讀 f= open('\\Users\ZC\Desktop\zc.txt','r') #呼叫read方法一次性讀取檔案的全部內容，存入記憶體，用str物件表示 print(f.read()) f.close() #使用with無論程式是否

pyspark中dataframe讀寫資料庫

本文只討論spark藉助jdbc讀寫mysql資料庫一，jdbc 想要spark能夠從mysql中獲取資料，我們首先需要一個連線mysql的jar包，mysql-connector-java-5.1.40-bin.jar 將jar包放入虛擬機器中合適的位置，比如我放置在/home/sx

剖析Elasticsearch集群系列第一篇 Elasticsearch的存儲模型和讀寫操作

推薦 arch 變更 git 排序。 _id 包含 doc 現在剖析Elasticsearch集群系列涵蓋了當今最流行的分布式搜索引擎Elasticsearch的底層架構和原型實例。本文是這個系列的第一篇，在本文中，我們將討論的Elasticsearch的底層存儲模型及

[js高手之路]node js系列課程-創建簡易web服務器與文件讀寫

server 分享回調能夠 logs 瀏覽器中文件讀取對象 web服務器至少有以下幾個特點： 1、24小時不停止的工作，也就是說這個進程要常駐在內存中 2、24小時在某一端口監聽，如: http://localhost:8080, www服務器默認端口80 3、要

多線程面試題系列（14）：讀者寫者問題繼讀寫鎖SRWLock

線程面試題 oid out 讀者寫者問題五個 lock val ref win7 在第十一篇文章中我們使用事件和一個記錄讀者個數的變量來解決讀者寫者問題。問題雖然得到了解決，但代碼有點復雜。本篇將介紹一種新方法——讀寫鎖SRWLock來解決這一問題。讀寫鎖在對資源進行保

多線程面試題系列（16）：多線程十大經典案例之一雙線程讀寫隊列數據

als single 間隔 eas 講解 art ces 依賴 ini 前十五篇中介紹多線程的相關概念，多線程同步互斥問題（第四篇）及解決多線程同步互斥的常用方法——關鍵段、事件、互斥量、信號量、讀寫鎖。為了讓大家更加熟練運用多線程，將會有十篇文章來講解十個多線程使用案例，

C語言學習系列——文件讀寫操作詳解

記錄源程序 8.4 lib 令行 stdio.h 空串表示參數當文件按指定的工作方式打開以後，就可以執行對文件的讀和寫。下面按文件的性質分類進行操作。針對文本文件和二進制文件的不同性質，對文本文件來說，可按字符讀寫或按字符串讀寫；對二進制文件來說，可進行

Python基礎筆記系列十一：標準輸入輸出、文件讀寫和指針等操作

mode strong sublime pre 字符串類型類型 print語句 open 同時　　本系列教程供個人學習筆記使用，如果您要瀏覽可能需要其它編程語言基礎（如C語言），why?因為我寫得爛啊，只有我自己看得懂！！標準輸入輸出一、輸入　　在sublime中這

python 讀寫三菱PLC數據，使用以太網讀寫Q系列，L系列，Fx系列的PLC數據

的人 tps github 演示 cts 設置但是服務器程序簡單本文將使用一個gitHub開源的組件技術來讀寫三菱的plc數據，使用的是基於以太網的TCP/IP實現，不需要額外的組件，讀取操作只要放到後臺線程就不會卡死線程，本組件支持超級方便的高性能讀寫操作 git

一步一步實現STM32-FOTA系列教程之FLASH靜態區讀寫

一步一步實現STM32-FOTA系列教程之FLASH靜態區讀寫文章系列連結《一步一步實現STM32-FOTA系列教程之bin檔案生成》《一步一步實現STM32-FOTA系列教程之STM32-FLASH分割槽說明》前言在上一篇文章《一步一步實現STM32-FO

Go基礎系列：互斥鎖Mutex和讀寫鎖RWMutex用法詳述

sync.Mutex Go中使用sync.Mutex型別實現mutex(排他鎖、互斥鎖)。在原始碼的sync/mutex.go檔案中，有如下定義： // A Mutex is a mutual exclusion lock. // The zero value for a Mutex is an un

補習系列(14)-springboot redis 整合-資料讀寫

目錄一、簡介二、SpringBoot Redis 讀寫 A. 引入 spring-data-redis B. 序列化 C. 讀寫樣例三、方法級快取四、連線池小結一、簡介在補習系列(A3)-springboot redis 與

介面測試系列：工作中所用（十：配置檔案的讀寫操作 configparser模組）

global_cache.py # -*- codeding: utf-8 -*- import configparser import hashlib import os from common.base import ENV class globalInfo: def get_

Json檔案解析與讀寫至DataFrame

簡介簡單講一下怎麼把txt檔案中的json格式檔案匯入到python中，同時轉為Data Frame形式的資料框。以方便後續進行資料分析。環境介紹系統環境：Windows 10 P

SSM整合系列之配置多資料來源並實現手動切換資料來源可實現讀寫分離

摘要：在之前的開發中有很多場景用到了多資料來源的情況，如在做資料冷熱遷移的時候，將冷資料遷移到另一個庫，查詢冷資料時需要切換資料庫；在和天貓京東等電商對接時，因為有多套系統在同時使用，在客戶授權時，需要根據客戶使用的版本，儲存到對應的資料庫中。基於此，在這裡呢簡單實現一個SSM系統的多資

Flink讀寫系列之-讀Kafka並寫入Kafka

讀寫Kafka比較簡單，官方提供了connector，也提供了例子可以參看，官網例子的GitHub地址：下面只做簡單的說明： val myConsumer = new FlinkKaf

pyspark讀寫SequenceFile

完整程式碼如下： # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') # @Author: appleyuchi # @Date: 2018-07-19 14:59

pyspark系列--讀寫dataframe

1. 連線spark

2. 建立dataframe

2.1. 從變數建立

2.2. 從變數建立

2.3. 讀取json

2.4. 讀取csv

2.5. 讀取MySQL

2.6. 從pandas.dataframe建立

2.7. 從列式儲存的parquet讀取

2.8. 從hive讀取

3. 儲存資料

3.1. 寫到csv

3.2. 儲存到parquet

3.3. 寫到hive

3.4. 寫到hdfs

3.5. 寫到mysql

相關推薦