Pyspark讀取parquet資料過程解析

阿新 • • 發佈：2020-03-29

parquet資料：列式儲存結構，由Twitter和Cloudera合作開發，相比於行式儲存，其特點是：

可以跳過不符合條件的資料，只讀取需要的資料，降低IO資料量；壓縮編碼可以降低磁碟儲存空間，使用更高效的壓縮編碼節約儲存空間；只讀取需要的列，支援向量運算，能夠獲取更好的掃描效能。

那麼我們怎麼在pyspark中讀取和使用parquet資料呢？我以local模式，linux下的pycharm執行作說明。

首先，匯入庫檔案和配置環境：

import os
from pyspark import SparkContext,SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local','test',conf=conf)
spark = SparkSession(sc)

然後，使用spark進行讀取，得到DataFrame格式的資料：host:port 屬於主機和埠號

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式資料有一些方法可以使用，例如：

1.df.first() ：顯示第一條資料，Row格式

print(df.first())

Pyspark讀取parquet資料過程解析

2.df.columns：列名

3.df.count()：資料量，資料條數

4.df.toPandas()：從spark的DataFrame格式資料轉到Pandas資料結構

5.df.show()：直接顯示錶資料；其中df.show(n) 表示只顯示前n行資訊

6.type(df)：顯資料示格式

Pyspark讀取parquet資料過程解析

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Pyspark讀取parquet資料過程解析

parquet資料：列式儲存結構，由Twitter和Cloudera合作開發，相比於行式儲存，其特點是：

Java基於final修飾資料過程解析

這篇文章主要介紹了Java基於final修飾資料過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

sql獲取儲存過程返回資料過程解析

這篇文章主要介紹了sql獲取儲存過程返回資料過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

python 動態遷移solr資料過程解析

前言上專案的時候，遇見一次需求，需要把線上的其中一個 collection 裡面的資料遷移到另外一個collection下，於是就百度了看到好多文章，其中大部分都是使用匯入的方法，沒有找到線上資料的遷移方法。於是寫了pyth

通過openpyxl讀取excel檔案過程解析

這篇文章主要介紹了通過openpyxl讀取excel檔案過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Pymysql實現往表中插入資料過程解析

程式碼如下 # -*- coding = utf-8 -*- # @time:2020/5/28/028 21:00 # Author:cyx # @File:插入資料.py

Python應用實現處理excel資料過程解析

實現功能 excel表格中有4列數，分別為RMF計算得到的 β，γ，勢能面及組態，需要挑選出相同 β 值下勢能面最低時的組態。為了減小資料量，先將 β 值保留兩位小數。

Springmvc獲取前臺請求資料過程解析

1）基本資料型別或String，在方法引數中定義引數，引數名與請求傳遞資料名一致即可自動封裝；

基於Python爬取fofa網頁端資料過程解析

FOFA-網路空間安全搜尋引擎是網路空間資產檢索系統（FOFA）是世界上資料覆蓋更完整的IT裝置搜尋引擎，擁有全球聯網IT裝置更全的DNA資訊。探索全球網際網路的資產資訊，進行資產及漏洞影響範圍分析、應用分佈統計、應

Mybatis插入Oracle資料庫日期型資料過程解析

前端頁面type型別是：datetime-local，因為如果是date型別，只顯示年月日，不顯示時間，這個可以顯示時間

Python讀取Excel資料並生成圖表過程解析

一、需求背景自己一直在做一個周基金定投模擬，每週需要新增一行資料，並生成圖表。以前一直是用Excel實現的。但資料行多後，圖表大小調整總是不太方便，一般只能通過縮放比例解決。

Java簡單資料加密方法DES實現過程解析

這篇文章主要介紹了Java簡單資料加密方法DES實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

SPRINGBOOT讀取PROPERTIES配置檔案資料過程詳解

這篇文章主要介紹了SPRINGBOOT讀取PROPERTIES配置檔案資料過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲貓眼電影和電影天堂資料csv和mysql儲存過程解析

字串常用方法 # 去掉左右空格 \'hello world\'.strip()# \'hello world\' # 按指定字元切割

Python內建資料型別list各方法的效能測試過程解析

這篇文章主要介紹了Python內建資料型別list各方法的效能測試過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python enumerate函式遍歷資料物件組合過程解析

這篇文章主要介紹了Python enumerate函式遍歷資料物件組合過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

用python寫測試資料檔案過程解析

這篇文章主要介紹了用python寫測試資料檔案過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python如何從檔案讀取資料及解析

讀取整個檔案：首先建立一個檔案，例如我建立了一個t x t檔案了。然後我想讀取這個檔案了，我首先將上面的這個檔案儲存在我即將要建立的Python的檔案目錄下，

Python openpyxl讀取單元格字型顏色過程解析

問題我試圖列印some_cell.font.color.rgb並得到各種結果。對於一些人，我得到了我想要的東西（比如“ FF000000”），但對於其他人，它給了我Value must be type \'basetring\'。我假設後者是因為我實際上沒有為這些

Pyspark讀取parquet資料過程解析

相關推薦