1. 程式人生 > >spark rdd讀取檔案

spark rdd讀取檔案

rdd讀取一個檔案
val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(","))


rdd讀取多個文字檔案
val rdd = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/accounts.txt,hdfs://172.20.20.17/tmp/wht/account/account02.txt").map(_.split(","))


rdd讀取一個資料夾
val rdd1 = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/").map(_.split(","))

val rdd2 = sc.textFile("hdfs://172.20.20.17/tmp/wht/mix/").map(_.split(","))

rdd讀取巢狀的資料夾下的檔案
val rdd3 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*/*").map(_.split(","))


rdd讀取本地檔案
val rdd4 = sc.textFile("file:///root/Downloads/data/").map(_.split(","))

rdd使用萬用字元讀取檔案
val rdd5 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*.txt").map(_.split(","))


上述示例都是以文字方式讀取檔案,該方式下rdd中的資料是按行來組織的,即讀取了多個檔案時,rdd.count()的值即為多個文字檔案中的行數之和。

當目錄下存在非文字檔案如orc檔案時,會在使用rdd時報錯,如下所示:
scala> rdd4.count()
java.io.IOException: Not a file: file:/root/Downloads/data/nameAndBanlance.orc

參考:https://blog.csdn.net/HeatDeath/article/details/81871651

相關推薦

spark rdd讀取檔案

rdd讀取一個檔案 val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(",")) rdd讀取多個文字檔案 val rdd = sc.text

Spark學習筆記 --- spark RDD載入檔案

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Spark RDD 操作實戰之檔案讀取

/1、本地檔案讀取 val local_file_1 = sc.textFile("/home/hadoop/sp.txt") val local_file_2 = sc.textFile("file://home/hadoop/sp.txt") //2、當前目錄下的檔案 val file1 = sc

【原創】大資料基礎之Spark(7)spark讀取檔案split過程(即RDD分割槽數量)

spark 2.1.1 spark初始化rdd的時候,需要讀取檔案,通常是hdfs檔案,在讀檔案的時候可以指定最小partition數量,這裡只是建議的數量,實際可能比這個要大(比如檔案特別多或者特別大時),也可能比這個要小(比如檔案只有一個而且很小時),如果沒有指定最小partition數量,初始化完成的

如何在通過RDD獲取 spark程式讀取的檔名

Way to get a Filename in Spark Streaming 編寫工具類 object GetFileNameFromStream extends java.io.Serializable { def getFileName(file: RDD[Str

Spark HadoopRDD讀取HDFS檔案

Spark HadoopRDD讀取HDFS檔案 更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/open

spark-stream 讀取靜態檔案幾點注意

spark-streaming在讀取hdfs或者本地目錄下的靜態檔案時需要注意的幾點:一、讀取路徑為讀取檔案所在的上一級資料夾,和所讀取檔案統計目錄下的資料夾中的內容不會被讀取(path路徑只能寫到資料夾,否則報空指標錯誤,但程式不會停止)二、讀取檔案資料時,把要處理的資料檔

Spark Streaming 讀取本地檔案檔案

package streamings.studys import org.apache.spark.SparkConf import org.apache.spark.streaming.dstre

通過Spark程式讀取CSV檔案儲存到ES

通過Spark程式讀取CSV檔案儲存到ES 0、準備工作: spark版本:1.6.0ES版本:5.5.2JDK版本:1.8 測試資料:Book1.csv age,sex,no,address,phone,qq,birthday 12,男,1,斯蒂芬斯蒂芬,122,444,2017-1-12

Spark RDD 按Key儲存到不同檔案

基本需求 將Keyed RDD[(Key,Value)]按Key儲存到不同檔案。 測試資料 資料格式:id,studentId,language,math,english,classId,depart

spark批量讀取大量小檔案的辦法

在實際工程中,經常會遇到要一起讀取眾多小檔案的辦法。本來正常情況下是進行資料夾的遍歷。 幸運的是,spark原生是支援這種功能的。它可以批量地讀取眾多的檔案,也可以按照一定的方式進行過濾。 命令十分簡單。如下: sc.textfile("/dir/*.txt") 其

spark 深入學習 03】Spark RDD的蠻荒世界

解釋 不難 特性 bsp resid 易懂 優化 方式 序列 RDD真的是一個很晦澀的詞匯,他就是伯克利大學的博士們在論文中提出的一個概念,很抽象,很難懂;但是這是spark的核心概念,因此有必要spark rdd的知識點,用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

Spark RDD

存儲系統 orm cnblogs 集合 ans transform 匹配 優化 進行 梗概: RDD 其實就是分布式的元素集合。 在Spark中,對數據的所有操作不外乎創建RDD、轉化已有RDD 以及 調用RDD 操作進行求值。而在這一切背後,Spark會自動將

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據 排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

Spark RDD轉換為DataFrame

person true line ted struct ger fields text san #構造case class,利用反射機制隱式轉換 scala> import spark.implicits._ scala> val rdd= sc.text

Spark RDD(Resilient Distributed Dataset)

com hdf 函數式 set 分享圖片 strong .cn 任務 apr 基於數據集的處理:從物理存儲上加載數據,然後操作數據,然後寫入物理存儲設備。比如Hadoop的MapReduce。 缺點:1.不適合大量的叠代 2. 交互式查詢 3. 不能復用曾

Spark RDD初探(一)

serializa 只有一個 broadcast each函數 flat -s cover med 溢出 本文概要 本文主要從以下幾點闡述RDD,了解RDD 什麽是RDD? 兩種RDD創建方式 向給spark傳遞函數Passing Functions to Spark 兩

spark RDD,DataFrame,DataSet 介紹

列式存儲 ren gre rds 包含 執行 這一 ces 中一 彈性分布式數據集(Resilient Distributed Dataset,RDD) RDD是Spark一開始就提供的主要API,從根本上來說,一個RDD就是你的數據的一個不可變的分布式元素集

Spark RDD詳解

Spark RDD 大數據 大數據開發 1、RDD是什麽RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一個只讀的,可分區的分布式數據集,這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。 為什麽會產生RDD? (1)傳統的Ma

Spark RDD算子實戰

大數據 Spark RDD 算子 [TOC] Spark算子概述 RDD:彈性分布式數據集,是一種特殊集合、支持多種來源、有容錯機制、可以被緩存、支持並行操作,一個RDD代表多個分區裏的數據集。 RDD有兩種操作算子: Transformation(轉換):Transformati