Spark SQL 的資料載入與儲存(load , )

阿新 • • 發佈：2019-02-16

Spark SQL主要是操作DataFrame，DataFrame本身提供了save和load的操作.
Load：可以建立DataFrame;
Save：把DataFrame中的資料儲存到檔案或者說與具體的格式來指明我們要讀取的檔案的型別以及與具體的格式來指出我們要輸出的檔案是什麼型別。
SparkSQL的儲存模式

 * SaveMode.ErrorIfExist ----->default 檔案存在,儲存失敗,有異常
 * SaveMode.Append      ----->append   在現有的基礎之上追加新的資料
 * SaveMode.Overwrite   ----->overwrite 重寫覆蓋現有目錄
 * SaveMode.Ignore      ----->ignore    忽略當前的儲存操作

在這裡插入圖片描述
具體設定的話，使用mode()方法進行設定

SparkConf conf = new SparkConf().setAppName("SaveMode").setMaster("local");
//JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sc= new SQLContext(sc);

//重新載入以前的處理結果（可選）
sc.load("hdfs://node01.sun.com:9000/sql/res1")
sc.load("hdfs://node01.sun.com:9000/sql/res2", "json")

//讀取hdfs中json格式的資料
DataFrame df = sc.read().json("hdfs://node01.sun.com:9000/input/student.json"); 

//以JSON檔案格式覆寫HDFS上的JSON檔案
import org.apache.spark.sql.SaveMode._
result.save("hdfs://node01.sun.com:9000/sql/res2", "json" , Overwrite)

//直接儲存
result.save("hdfs://node01.sun.com:9000/sql/res1")
result.save("hdfs://node01.sun.com:9000/sql/res2", "json")

//載入資料 預設載入的資料格式為parquet
DateFrame df=sc.read().parquet("hdfs://node01.sun.com:9000/output/aaa");
//df.show();

//將資料追加寫入到hdfs檔案系統中
df.write().mode(SaveMode.Append).save("hdfs://node01.sun.com:9000/output/aaa");

Spark SQL 的資料載入與儲存(load , )

Spark SQL主要是操作DataFrame，DataFrame本身提供了save和load的操作. Load：可以建立DataFrame; Save：把DataFrame中的資料儲存到檔案或者說與具體的格式來指明我們要讀取的檔案的型別以及與具體的格式來指出我

Spark SQL資料載入和儲存實戰

一：前置知識詳解： Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作， Load：可以建立DataFrame， Save：把DataFrame中的資料儲存到檔案或者說與具體的格式來指明我們要讀取的

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

Spark（五）資料讀取與儲存

目錄： 5、資料讀取與儲存 5.1、檔案格式 5.1.1、文字檔案 5.1.2、JSON 5.1.3、逗號分隔值與製表符分隔值 5.1.4、SequenceFile 5.1.5、物件檔案 5.2、檔案系統 5.2.1、本地/“常規”檔案系統 5.2.3、HDF

利用Python資料分析：資料載入、儲存與檔案格式（一)

import pandas as pd from pandas import DataFrame,Series import sys import numpy as np df = pd.read_csv('E:\Python for Data Analysis\pydat

Spark--資料讀取與儲存

1、動機有時候資料量會大到本機可能無法儲存，這時就需要探索別的讀取和儲存方法了。 Spark支援很多種輸入源和輸出源。一部分原因是Spark本身是基於Hadoop生態圈二構建的，so spark可以通過Hadoop MapReduce 所使用的InputF

[spark streaming] ReceiverTracker 資料產生與儲存

前言在Spark Streaming裡，總體負責任務的動態排程是JobScheduler，而JobScheduler有兩個很重要的成員：JobGenerator 和 ReceiverTracker。JobGenerator 負責將每個 batch 生成具體的

OpenCV中原始影象載入與儲存壓縮技巧

載入影象 OpenCV中關於影象讀寫有兩個函式imread與imwrite，imread載入的時候支援灰度影象、彩色影象、原始影象載入，預設情況下通過imread載入的影象都是三通道的BGR彩色影象。但是實際上OpenCV支援載入任意通道的影象，首先來仔細再看一下imread函式 Mat&

Python + OpenCV 學習筆記（一）>>> 影象的載入與儲存

影象屬性：通道數目高與寬畫素資料影象型別顯示一張圖片： import cv2 as cv src = cv.imread("/home/pi/Desktop/apple.jpg") cv.namedWindow("input im

基於Python+Spark的資料科學與商業實踐視訊教程

基於Python+Spark的資料科學與商業實踐視訊教程課程下載：https://pan.baidu.com/s/1f8vFZWM-p363EAy64pAEkQ 提取碼：xax0 課程目標：1、瞭解金融銀行業使用者畫像、客戶留存預警、評分卡製作、精準營銷及銀行產品推薦等經典業

c++的基本資料型別與儲存結構（學生筆記）

資料型別： 1.基本型別：整型（int,bool,enum）,浮點型（float,double）,字元型（char） 2.結構型別：陣列（[ ]）,結構（struct）聯合（union）,類（class） 3.指標型別：（*） 4.空型別:（void）整形根據示數範圍分為：短整形（sh

mxnet——模型載入與儲存

一、載入模型與pretrain模型network相同 # loading predict module data_shape_G = 96 Batch = namedtuple('Batch',['data']) sym, arg_params, aux_params = mx.mode

R 語言資料讀取與儲存

一、R語言讀取文字檔案： 1、檔案目錄操作：getwd() : 返回當前工作目錄setwd(“d:/data”) 更改工作目錄 2、常用的讀取指令readread.table() : 讀取文字檔案read.csv(): 讀取csv檔案如果出現缺失值，read.

scala 載入與儲存xml文件

1 package scala_enhance.xml 2 3 import scala.xml.XML 4 import scala.io.Source 5 import jdk.internal.org.xml.sax.InputSource 6 import java.io.File

ECharts非同步資料載入與更新

ECharts 中在圖表初始化後不管任何時候只要通過 jQuery 等工具非同步獲取資料後通過 setOption 填入資料和配置項就行。  <div id="main" style="width: 800px;

ch6_01 Pandas 資料載入、儲存&檔案格式

輸入輸出通常分為以下幾大類：讀取文字檔案和其他的更高效的磁碟儲存格式、載入資料庫中的資料、利用Web API操作網路資源 6.1讀寫文字格式的資料 pandas提供了一些用於將表格型資料讀取為D

OpenCv-Python-01 影象載入與儲存

雖然OpenCv主要是基於C/C++的，但是也支援Python。基本操作與OpenCv C++有點類似。主要說明都已加註釋… 影象載入與儲存 import cv2 as cv import numpy as np #跟Mat()類似，但Python不用Mat() def g

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

主要內容 Spark SQL、DataFrame與Spark Streaming 1. Spark SQL、DataFrame與Spark Streaming import org.apache.spark.SparkConf import org

Flume+hbase 日誌資料採集與儲存

瞭解過flume的人，差不多都看過這張或則類似的圖片，本文即實現上圖部分內容。（由於條件有限，目前是單機上實現） flume-agent配置檔案 #flume agent conf source_agent.sources = server source_agent.si

Tensorflow學習筆記：變數作用域、模型的載入與儲存、執行緒與佇列實現多執行緒讀取樣本

# tensorflow變數作用域用上下文語句規定作用域 with tf.variable_scope("作用域_name") ......

Spark SQL 的資料載入與儲存(load , )

相關推薦