Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

阿新 • • 發佈：2020-09-08

本篇來介紹一下通過Spark來讀取和HDFS上的資料，主要包含四方面的內容：將RDD寫入HDFS、讀取HDFS上的檔案、將HDFS上的檔案新增到Driver、判斷HDFS上檔案路徑是否存在。

1、啟動Hadoop

首先啟動咱們的Hadoop，在hadoop的目錄下執行下面的命令：

rm -rf tmp 
mkdir tmp
cd sbin
hadoop namenode -format
start-dfs.sh
start-yarn.sh

檢視是否啟動成功：

2、將RDD寫入HDFS

先建立一個SparkSession：

val spark = SparkSession
      . 
builder()
      .appName("Spark SQL basic example")
      .enableHiveSupport()
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

將RDD寫入HDFS使用的函式是saveAsTextFile：

val modelNames = Array("FM","FFM","DEEPFM","NFM","DIN","DIEN")
val modelNamesRdd = spark.sparkContext.parallelize(modelNames, 
1)
modelNamesRdd.saveAsTextFile("hdfs://localhost:9000/user/root/modelNames")

接下來，我們檢視一下是否儲存成功：

可以看到RDD在HDFS上是分塊儲存的，由於我們只有一個分割槽，所以只有part-0000。假設我們儲存一個包含兩個分割槽的RDD：

val modelNames3 = Array("FM","FFM","DEEPFM","NFM","DIN","DIEN")
val modelNames3Rdd = spark.sparkContext.parallelize(modelNames3,2)

modelNames3Rdd. 
saveAsTextFile("hdfs://localhost:9000/user/root/modelNames3")

再次檢視，可以看到有part-00000和part-00001:

3、讀取HDFS上的檔案

讀取HDFS上的檔案，使用textFile方法：

 val modelNames2 = spark.sparkContext.textFile("hdfs://localhost:9000/user/root/modelNames/part-00000")

val modelNames4 = spark.sparkContext.textFile("hdfs://localhost:9000/user/root/modelNames3/")

讀取時是否加最後的part-00000都是可以的，當只想讀取某個part，則必須加上。

4、將HDFS上的檔案新增到Driver

有時候，我們並不想直接讀取HDFS上的檔案，而是想對應的檔案新增到Driver上，然後使用java或者Scala的I／O方法進行讀取，此時使用addFile和get方法來實現：

val files = "hdfs://localhost:9000/user/root/modelNames/part-00000"
spark.sparkContext.addFile(files)
val path = SparkFiles.get("part-00000")
println(path)

列印的路徑十分奇怪，沒有擷取完全：

然後有了path之後，就可以使用scala的I／O進行讀取：

val source = Source.fromFile(path)
val lineIterator = source.getLines
val lines =lineIterator.toArray
println(lines.mkString(","))

輸出為：

FM,FFM,DEEPFM,NFM,DIN,DIEN

5、判斷HDFS上檔案路徑是否存在

在讀取HDFS地址或者將檔案傳輸到Driver上的時候，首先需要判斷檔案是否存在。單機環境下，程式碼如下：

val conf = spark.sparkContext.hadoopConfiguration

val path = new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames/part-00000")
val fs = path.getFileSystem(conf) //得hdfs檔案系統中的路徑資訊

val modelNamesExists = fs.exists(path)
val modelNames1Exists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames1/part-00000"))

println(modelNamesExists)
println(modelNames1Exists)

輸出結果為：

true
false

而在公司中的大規模叢集環境下，通常的程式碼如下：

val conf = spark.sparkContext.hadoopConfiguration
val fs = org.apache.hadoop.fs.FileSystem.get(conf)

val modelNamesExists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames/part-00000"))
val modelNames1Exists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames1/part-00000"))

println(modelNamesExists)
println(modelNames1Exists)

如果在本地單機環境下仍然使用上面的程式碼，會報如下的錯誤：

Wrong FS: hdfs://localhost:9000/user/root/modelNames/part-00000, expected: file:///

所以對比兩份程式碼你可以發現，在本地環境中，我們首先使用getFileSystem獲取了hdfs檔案系統中的路徑資訊，從而避免了上面的錯誤。

好了，今天的知識就分享到這裡，小夥伴們都掌握了麼？

Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

Spark專案實戰從0到1之（3）spark讀取hive資料

1.首先將叢集的這3個檔案hive-site.xml，core-size.xml,hdfs-site.xml放到資原始檔裡(必須，否則報錯)

Spark專案實戰從0到1之（6）Spark 讀取mysql中的資料

Spark（直接讀取mysql中的資料）兩種方法的目的：進行mysql資料的資料清洗方法一：

Spark專案實戰從0到1之（10）Spark讀取HDFS寫入Hive

package com.xxxx.report.service; import com.google.common.collect.Lists; import com.xx.report.config.Constants;

Spark專案實戰從0到1之（11）實現手機號碼脫敏的udf函式執行過程

Hive UDFHive UDF 函式1 POM 檔案2.UDF 函式3 利用idea打包4 新增hive udf函式4.1 上傳jar包到叢集4.2 修改叢集hdfs檔案許可權4.3 註冊UDF4.4 使用UDF

Spark專案實戰從0到1之（12）hive內建函式大全

Hive常用函式大全一覽文章目錄 1關係運算 1.11、等值比較: = 1.22、不等值比較: 1.33、小於比較: <

Spark專案實戰從0到1之（13）hive經典50題

一.建表和載入資料 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string)

Spark專案實戰從0到1之（14）關於hive統計連續的案例

一:例題1 統計使用者連續交易的總額、連續登陸天數、連續登陸開始和結束時間、間隔天數

Spark專案實戰從0到1之（15）hive實現連續三個月學生成績都為A的記錄

1.資料 s1,201801,A s1,201802,A s1,201803,C s1,201804,A s1,201805,A s1,201806,A s2,201801,A s2,201802,B s2,201803,C

Spark專案實戰從0到1之（16）hive求出場率，環比以及共同通話時長

一、求出場率與出廠次數 1、有如下資料：（建表語句+sql查詢） id names 1 aa,bb,cc,dd,ee

Spark專案實戰從0到1之（20）企業級資料倉庫構建（三）：資料採集模組環境搭建（1）

一、資料採集模組 Linux基本配置【1】Linux環境搭建 1).修改MAC地址方法1：vim /etc/udev/rules.d/70-persistent-net.rules

Java從入門到實戰之（1）java基礎

Java 簡介什麼是Java？ Java是一種流行的程式語言，創建於1995年。 Java屬於Oracle公司所有，執行Java的裝置超過30億臺。

Flink 從 0 到 1 學習之（13）Flink 讀取 Kafka 資料寫入到 RabbitMQ FlinkKafkaRabbitMQ大資料流式計算

前言之前有文章《從0到1學習Flink》—— Flink 寫入資料到 Kafka寫過 Flink 將處理後的資料後發到 Kafka 訊息佇列中去，當然我們常用的訊息佇列可不止這一種，還有 RocketMQ、RabbitMQ 等，剛好 Flink

Flink 從 0 到 1 學習之（12）Flink 讀取 Kafka 資料批量寫入到 MySQL

前言之前其實在《從0到1學習Flink》—— 如何自定義 Data Sink ？文章中其實已經寫了點將資料寫入到 MySQL，但是一些配置化的東西當時是寫死的，不能夠通用，最近知識星球裡有朋友叫我: 寫個從 kafka 中

Flink 從 0 到 1 學習之（14）Flink 讀取kafka資料，寫入到Hbase

概述環境說明 scala: 2.12.8 linux下scala安裝部署 flink : 1.8.1Flink1.8.1 叢集部署 kafka_2.12-2.2.0kafka_2.12-2.2.0 叢集部署

Flink 從 0 到 1 學習之（20）Flink讀取hdfs檔案

接一下以一個示例配置來介紹一下如何以Flink連線HDFS 1. 依賴HDFS pom.xml 新增依賴

Flink 從 0 到 1 學習之（23）Flink 讀取hive並寫入hive

1，讀取實現了，也是找的資料，核心就是實現了 HCatInputFormatHCatInputFormatBase 上面這兩個類，底層也是繼承實現了 RichInputFormat：

小馬哥的 Java 專案實戰營學習筆記（1）

小馬哥的 Java 專案實戰營小馬哥的 Java 專案實戰營第二節：資料儲存之 JDBC JDBC 核心 API

雲與備份之（1）：VMware虛機備份和恢復

本系列文章會介紹雲與備份之間的關係，包括：（1）VMware 虛機備份和恢復（2）KVM 虛機備份和恢復

Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

1、啟動Hadoop

2、將RDD寫入HDFS

3、讀取HDFS上的檔案

4、將HDFS上的檔案新增到Driver

5、判斷HDFS上檔案路徑是否存在

相關推薦