Spark學習小記-（1）DataFrame的schema

阿新 • • 發佈：2021-01-03

Schema是什麼

DataFrame中的資料結構資訊，即為schema。DataFrame中提供了詳細的資料結構資訊，從而使得SparkSQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。

自動推斷生成schema

使用spark的示例檔案people.json, 檢視資料：

[root@hadoop01 resources]# head -5  people.json 
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

建立dataframe，檢視該dataframe的schema：

>>>df=spark.read.format("json").load("/opt/module/spark/examples/src/main/resources/people.json")
>>> df.printSchema()
root
 |-- age: long (nullable = true)               --age列，long型，可以為null
 |-- name: string (nullable = true)            --name列，string型，可以為null

換一種schema檢視方式

>>>spark.read.format(" 
json").load("/opt/module/spark/examples/src/main/resources/people.json").schema
StructType(List(StructField(age,LongType,true),StructField(name,StringType,true)))
# 模式Schema是多個欄位構成的StructType，欄位是StructField，每個StructField資訊包括名稱、型別、能否為null. 還可以指定與列關聯的元資料

指定schema

>>> from pyspark.sql.types import StructField,StructType,StringType,IntegerType
 
>>> myschema=StructType([StructField("nianling",IntegerType(), True),StructField("xingming",StringType(), True)])
# 這裡注意是[]、StringType()、True，而不是List、StringType、true
>>>df=spark.read.format("json").schema(myschema).load("/opt/module/spark/examples/src/main/resources/people.json")
>>> df.take(5)
[Row(nianling=None, xingming=None), Row(nianling=None, xingming=None), Row(nianling=None, xingming=None)]
# 為什麼資料沒有載入進去？？？

可能是指定的欄位與json中的key值不一致？？有可能

# 這裡就只是把年齡型別由預設推斷的long改成了int，可以讀取成功
>>> myschema=StructType([StructField("age",IntegerType(), True),StructField("name",StringType(), True)])
>>> df=spark.read.format("json").schema(myschema).load("/opt/module/spark/examples/src/main/resources/people.json")
>>> df.take(5)
[Row(age=None, name=u'Michael'), Row(age=30, name=u'Andy'), Row(age=19, name=u'Justin')]

(示例用的是pyspark)

Spark學習小記-（1）DataFrame的schema

Schema是什麼 DataFrame中的資料結構資訊，即為schema。DataFrame中提供了詳細的資料結構資訊，從而使得SparkSQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

RabbitMQ學習筆記（1）----訊息佇列

參考網址： 1. https://www.jianshu.com/p/689ce4205021 2. https://zhuanlan.zhihu.com/p/52773169 3. https://juejin.im/post/5cb025fb5188251b0351ef48#heading-2

Spark學習筆記（二）Spark2.3 HA叢集的分散式安裝圖文詳解

本文例項講述了Spark2.3 HA叢集的分散式安裝。分享給大家供大家參考，具體如下：

Spark學習筆記（一）Spark初識【特性、組成、應用】

本文例項講述了Spark基本特性、組成、應用。分享給大家供大家參考，具體如下：

Spark學習筆記（三）-Spark Streaming

Spark Streaming支援實時資料流的可擴充套件（scalable）、高吞吐（high-throughput）、容錯（fault-tolerant）的流處理（stream processing）。

Django學習筆記（1）Django安裝

1.安裝django 　　本篇文章只針對於pycharm專業版環境安裝Django，社群版需要手動搭建環境

typescript學習筆記（1）

1.簡介、安裝方式自行百度 2.基礎型別布林值 boolean 數字 number 字串 string 陣列 type[]，例如第一種方式number[]，表示由數字組成的陣列，第二種方式 Array<type> ，例如 Array<number>

elementui 學習筆記（1）資料轉換

在使用elementui時經常需要將資料轉換格式，用來回填資料和請求資料　　如例子中，可動態增減的form表單，格式為[{name:\'a\',value:\'1\'},{name:\'b\',value:\'2\'}],傳送介面請求時需要轉換為{a:1,b:2}，想反在

強化學習實戰（1）：gridworld

參考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中給出了一個簡單的例子:Gridworld, 以幫助我們理解finite MDPs,

Java集合學習筆記（1）

java集合 1. 集合關係圖集合介面 terface.png) 實現類 2. LinkedList與ArrayList 2.1常用api，迷惑看https://docs.oracle.com/javase/7/docs/api/

OpenCV4學習筆記（1）原始碼編譯安裝 | OpenCV4.3.0以及Contrib | Win10 | CMake-GUI | VS2019 | HTTP代理

目錄目標ATTENTION！下載CMake、配置CMake環境變數、下載OpenCV和OpenCV_Contrib原始碼、下載VS2019下載CMake配置CMake環境變數下載OpenCV和OpenCV_Contrib原始碼下載OpenCV原始碼下載OpenCV_Contrib原始碼下載VS201