3. Spark常見資料來源

阿新 • • 發佈：2020-09-22

*以下內容由《Spark快速大資料分析》整理所得。

讀書筆記的第三部分是講的是Spark有哪些常見資料來源？怎麼讀取它們的資料並儲存。

Spark有三類常見的資料來源：

檔案格式與檔案系統：它們是儲存在本地檔案系統或分散式檔案系統（比如 NFS、HDFS、Amazon S3 等）中的資料，例如：文字檔案、JSON、SequenceFile，以及 protocol buffer。
Spark SQL中的結構化資料來源：它針對包括JSON和Apache Hive在內的結構化資料來源。
資料庫與鍵值儲存：Spark 自帶的庫和一些第三方庫，它們可以用來連線Cassandra、HBase、Elasticsearch以及JDBC

源。

一、檔案格式與檔案系統

1. 文字檔案

2. JSON

3. CSV

4. SequenceFile

二、Spark SQL中的結構化資料來源

三、資料庫與鍵值儲存

一、檔案格式與檔案系統

1. 文字檔案
文字檔案讀取：

# 方法1：文字檔案讀取
input = sc.textFile("file://home/holden/repos/sparks/README.md")
# 方法2：如果檔案足夠小，同時讀取整個檔案，從而返回一個pair RDD，其中鍵時輸入檔案的檔名
input = sc.wholeTextFiles("file://home/holden/salesFiles")

文字檔案儲存：

result.saveAsTextFile(outputFile)

2. JSON
JSON讀取：

# JSON讀取
import json
data = input.map(lambda x: json.loads(x))

JSON儲存：

# JSON儲存 - 舉例選出喜愛熊貓的人
(data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)).saveAsTextFile(outputFile))
# 儲存文字檔案
result.SaveAsTextFile(outputFilePath)

3. CSV

CSV讀取：

import csv
import StringIO

# CSV讀取 - 如果資料欄位均沒有包括換行符，只能一行行讀取
def loadRecord(line):
    """解析一行CSV記錄"""
    input = StringIO.StringIO(line)
    reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"])
    return reader.next()

input = sc.textFile(inputFile).map(loadRecord)

# CSV讀取 - 如果資料欄位嵌有換行符，需要完整讀入每個檔案
def loadRecords(fileNameContents):
    """讀取給定檔案中的所有記錄"""
    input = StringIO.StringIO(fileNameContents[1])
    reader = csv.DictReader(input, fieldnames=["name", "favoriteAnimal"])
    return reader
    
fullFileData = sc.wholeTextFiles(inputFile).flatMap(loadRecords)

CSV儲存：

# CSV儲存
def writeRecords(records):
    """寫出一些CSV記錄"""
    output = StringIO.StringIO()
    writer = csv.DictWriter(output, fieldnames=["names", "favoriteAnimal"])
    for record in records:
        writer.writerow(record)
    return [output.getvalue()]

pandaLovers.mapPartitions(writeRecords).saveAsTextFile(outputFile)

4. SequenceFile

SequenceFile讀取：

# sc.sequenceFile(path， keyClass, valueClass)
data = sc.sequenceFile(inFile, "org.apache.hadoop.io.Text", "org.apache.hadoop.io.IntWritable")

SequenceFile儲存（用Scala）：

val data = sc.parallelize(List(("Pandas", 3), ("Kay", 6), ("Snail", 2)))
data.saveAsSequenceFile(outputFile)

二、Spark SQL中的結構化資料來源

三、資料庫與鍵值儲存

關於Cassandra、HBase、Elasticsearch以及JDBC源的資料庫連線，詳情請參考書本81-86頁內容。

3. Spark常見資料來源

*以下內容由《Spark快速大資料分析》整理所得。讀書筆記的第三部分是講的是Spark有哪些常見資料來源？怎麼讀取它們的資料並儲存。

ODBC 常見資料來源配置整理

目錄 1. 簡介 1.1 ODBC和JDBC 1.2 ODBC配置工具 1.3 ODBC 資料來源連線配置 2. MySQL 資料來源配置

spark常見錯誤彙總

原文地址：https://my.oschina.net/tearsky/blog/629201 摘要：　　1、Operation category READ is not supported in state standby

充分利用聊天機器人：3個常見誤解

本文在原文基礎上略有修改不代表原作者觀點聊天機器人在過去的一年中被廣泛採用，並且其增長沒有絲毫放緩的跡象：Gartner最近的一項研究發現，到2022年，將有70％的白領每天與對話平臺進行互動。在大流行

圖解3種常見的深度學習網路結構：FC、CNN、RNN

導讀：深度學習可以應用在各大領域中，根據應用情況的不同，深度神經網路的形態也各不相同。

Spark_4：Spark常見操作函式

以{1, 2, 3, 3}的RDD為例：函式名目的示例結果 map() 將函式應用於 RDD 中的每個元素，將返回值構成新的 RDD

Spark 常見 issues solving

技術標籤：sparkSpark Sql 載入 metastore_db issue Database Class Loader started - derby.database.classpath=\'\'

ArcGIS runtime sdk 移動端常見資料來源載入方式

技術標籤：ArcGIS Proarcgis runtime安卓移動端 1. 載入線上的ArcGIS Portal webmap資源 // inflate MapView from layout

Spark SQL 資料來源（三）

Spark SQL 可以從多種資料來源讀取資料，也可以將資料寫入多種資料來源，如：json、txt、hdfs、parquet、jdbc、hive 等

實驗 3 Spark 和 Hadoop 的安裝

2．HDFS 常用操作（1）啟動 Hadoop，在 HDFS 中建立使用者目錄“/user/hadoop”；（2）在 Linux 系統的本地檔案系統的“/home/hadoop”目錄下新建一個文字檔案 test.txt，並在該檔案中隨便輸入一些內容，然後

3.Spark設計與執行原理，基本操作

1.Spark已打造出結構一體化、功能多樣化的大資料生態系統，請用圖文闡述Spark生態系統的組成及各元件的功能。

3.Spark設計與執行原理，基本操作 3.Spark設計與執行原理，基本操作

3.Spark設計與執行原理，基本操作 1.Spark已打造出結構一體化、功能多樣化的大資料生態系統，請用圖文闡述Spark生態系統的組成及各元件的功能。

Spark SQL常見4種資料來源詳解

通用load/write方法手動指定選項 Spark SQL的DataFrame介面支援多種資料來源的操作。一個DataFrame可以進行RDDs方式的操作，也可以被註冊為臨時表。把DataFrame註冊為臨時表之後，就可以對該DataFrame執行SQL查詢

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。

MySQL讀取Binlog日誌常見的3種錯誤

1. mysqlbinlog: [ERROR] unknown variable \'default-character-set=utf8mb4\' 當我們在my.cnf中新增default-character-set=utf8mb4選項，那麼在mysqlbinlog檢視binlog時就會報錯。

Spark學習筆記（二）Spark2.3 HA叢集的分散式安裝圖文詳解

本文例項講述了Spark2.3 HA叢集的分散式安裝。分享給大家供大家參考，具體如下：

php5.3/5.4/5.5/5.6/7常見新增特性彙總整理

本文例項總結了php5.3/5.4/5.5/5.6/7新增特性。分享給大家供大家參考，具體如下：

spring boot:使用多個redis資料來源(spring boot 2.3.1)

一，什麼情況下需要使用多個redis資料來源? 為了快取資料，通常我們會在線上使用多個redis的cluster,

spring boot:使mybatis訪問多個druid資料來源(spring boot 2.3.2)

一，為什麼要使用多個數據源? 1，什麼情況下需要使用多個數據源? 當我們需要訪問不同的資料庫時，則需要配置配置多個數據源，

spring boot:用dynamic-datasource-spring-boot-starter配置druid多資料來源(spring boot 2.3.3)

一，dynamic-datasource-spring-boot-starter的用途? 1,dynamic-datasource-spring-boot-starter 是一個基於springboot的快速整合多資料來源的啟動器

3. Spark常見資料來源

相關推薦