Spark：sc.textFiles() 與 sc.wholeTextFiles() 的區別

阿新 • • 發佈：2018-05-16

一行 nal each span 由於 clean 16px ret tex

由於業務需要，需要將大量文件按照目錄分類的方式存儲在HDFS上，這時從HDFS上讀取文件就需要使用 sparkcontext.wholeTextFiles()，

眾所周知，sc.textFiles(path) 能將path 裏的所有文件內容讀出，以文件中的每一行作為一條記錄的方式：

>>> textFile = sc.textFile(path)
>>> textFile.collect()
[u‘Hello world!‘]
文件的每一行 相當於 列表 的一個元素，因此可以在每個partition中用for i in data的形式遍歷處理數據。

而使用 sc.wholeTextFiles() 
時，

Read a directory of text files from HDFS, a local file system
(available on all nodes), or any  Hadoop-supported file system
URI. Each file is read as a single record and returned in a
key-value pair, where the key is the path of each file, the
value is the content of each file.
...

>>> textFiles = sc.wholeTextFiles(dirPath)
>>> sorted(textFiles.collect())
[(u‘.../1.txt‘, u‘1‘), (u‘.../2.txt‘, u‘2‘)]
"""

如上面所示，返回的是[(key, val), (key, val)...]的形式，其中key是文件路徑，val是文件內容，這裏我們要註意的重點是：
 
‘‘‘Each file is read as a single record‘‘‘ 這句話，
每個文件作為一個記錄！這說明這裏的 val 將不再是 list 的方式為你將文件每行拆成一個 list的元素,
而是將整個文本的內容以字符串的形式讀進來，也就是說val = ‘...line1...\n...line2...\n‘
這時需要你自己去拆分每行！而如果你還是用for i in val的形式來便利 val那麽i得到的將是每個字符

------------以下是親自實驗的截圖---

dataRdd = sc.wholeTextFiles(‘hdfs://192.168.7.217:9000/clean/TD_FIRSTPAGE/part-r-*‘)
from cp_analysis.clean.DataClean import printData, printDataPartition
dataRdd.foreach(printData)
dataRdd.foreachPartition(printDataPartition)

def printData(x):
    print x[0]
    for line in x[1].split(‘\n‘):
        print line


def printDataPartition(data):
    for x in data:
        print x[0]
        print ‘-----------------------------------------‘
        print x[1]

技術分享圖片

下面是使用 for ele in X[1]:

　　　　　　　　print ele

輸出的截圖：

技術分享圖片

Spark：sc.textFiles() 與 sc.wholeTextFiles() 的區別

一行 nal each span 由於 clean 16px ret tex 由於業務需要，需要將大量文件按照目錄分類的方式存儲在HDFS上，這時從HDFS上讀取文件就需要使用 sparkcontext.wholeTextFiles()，眾所周知，sc.textFi

Java學習筆記：C/S 與B/S 區別！

C/S 是Client/Server 的縮寫，是客戶機與伺服器結構的應用程式；B/S是Brower/Server 的縮寫，是瀏覽器和伺服器結構的應用程式，即Web 應用程式。C/S 與B/S 區別如下： 1)硬體環境不同: C/S 一般建立在專用的網路上, 小範圍裡的網路環境, 區域網

執行緒：wait方法與sleep方法區別

wait方法與sleep方法區別 wait：執行緒間的通訊的問題，需要等待別的執行緒喚醒。 sleep：自己控制執行緒的執行狀態，隔了一段時間自動醒過來。 wait：方法釋放了鎖 sleep：方法沒有釋放鎖 &nbs

Java之路：方法過載與重寫的區別

一、方法的過載（overload）方法名相同但引數列表不同的方法簽名機制，稱之為方法的過載(method overload)。過載的表現形式就是呼叫一系列具有相同名稱的方法，這些方法可根據傳入引數的不同而得到不同的處理結果，這其實就是多型性的一種體現，這屬於靜態多型，即同一種介面

#Java學習筆記：C/S 與B/S 區別！

C/S 是Client/Server 的縮寫，是客戶機與伺服器結構的應用程式；B/S是Brower/Server 的縮寫，是瀏覽器和伺服器結構的應用程式，即Web 應用程式。C/S 與B/S 區別如下：如果有想要學習java的小夥伴，可來我們的java學習扣裙

《深入理解Spark：核心思想與原始碼分析》（第2章）

《深入理解Spark：核心思想與原始碼分析》一書第一章的內容請看連結《第1章環境準備》本文主要展示本書的第2章內容： Spark設計理念與基本架構 “若夫乘天地之正，而御六氣之辯，以遊無窮者，彼且惡乎待哉？” ——《莊子·逍遙遊》 n本章導讀：上一章，介紹了Spark環境的搭建，為方便讀

Sring（二）：String,StringBuffer與StringBuilder的區別

一、String 字串廣泛應用在Java 程式設計中，在 Java 中字串屬於物件，Java 提供了 String 類來建立和操作字串。串也是資料結構的一種需要注意的是，String的值是不可變的，這就導致每次對String的操作都會生成新的String物件，這樣不僅效率低下，而且

spark RDD操作map與flatmap的區別

以前總是分不清楚spark中flatmap和map的區別，現在弄明白了，總結分享給大家，先看看flatmap和map的定義。 map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成

《深入理解SPARK：核心思想與原始碼分析》一書正式出版上市

自己犧牲了7個月的週末和下班空閒時間，通過研究Spark原始碼和原理，總結整理的《深入理解Spark：核心思想與原始碼分析》一書現在已經正式出版上市，目前京東、噹噹、天貓等網站均有銷售，歡迎感興趣的同學購買。我開始研究原始碼時的Spark版本是1.2.0，經過7個多月的研

《深入理解Spark：核心思想與原始碼分析》（前言及第1章）

　　自己犧牲了7個月的週末和下班空閒時間，通過研究Spark原始碼和原理，總結整理的《深入理解Spark：核心思想與原始碼分析》一書現在已經正式出版上市，目前亞馬遜、京東、噹噹、天貓等網站均有銷售，歡迎感興趣的同學購買。我開始研究原始碼時的Spark版本是1.2.0，經過7個多月的研究和出版社近4個月的流

《深入理解SPARK：核心思想與原始碼分析》——SparkContext的初始化（仲篇）——SparkUI、環境變數及排程

《深入理解Spark：核心思想與原始碼分析》一書第一章的內容請看連結《第1章環境準備》《深入理解Spark：核心思想與原始碼分析》一書第二章的內容請看連結《第2章 SPARK設計理念與基本架構》由於本書的第3章內容較多，所以打算分別開闢四篇隨筆分別展現。本文展現第3章第二部分的內容：

《深入理解Spark：核心思想與原始碼分析》——SparkContext的初始化（伯篇）——執行環境與元資料清理器

《深入理解Spark：核心思想與原始碼分析》一書第一章的內容請看連結《第1章環境準備》《深入理解Spark：核心思想與原始碼分析》一書第二章的內容請看連結《第2章 SPARK設計理念與基本架構》由於本書的第3章內容較多，所以打算分別開闢四篇隨筆分別展現。本文展現第3章第一部分的內容：第3章

由 System.arraycopy 引發的鞏固：物件引用與物件的區別

作者：林冠巨集 / 指尖下的幽靈掘金：https://juejin.im/user/587f0dfe128fe100570ce2d8 部落格：http://www.cnblogs.com/linguanh/ GitHub ： https://github.com/af913337456/

《圖解Spark：核心技術與案例實戰》介紹及書附資源

本書中所使用到的測試資料、程式碼和安裝包放在百度盤提供下載，連結: https://pan.baidu.com/s/1sXuOC3J-aHEc0E_kVWLqFg#list/path=%2F 另外在百度盤提供本書附錄下載，連結: https://pan.baidu.com/s/1sO8NXqry

Python程式設計：生成器yield與yield from區別簡單理解

yield yield不僅可以返回值，也可以接收值 # yield返回值, 生成器 def gen(): for x in ["a", "b", "c"]: yield

TensorFlow入門：tf.InteractiveSession()與tf.Session()區別

tf.InteractiveSession():它能讓你在執行圖的時候，插入一些計算圖，這些計算圖是由某些操作(operations)構成的。這對於工作在互動式環境中的人們來說非常便利，比如使用IPython。 tf.Session():需要在啟動session之前構建

白話：服務降級與熔斷的區別

雖然之前在《Spring Cloud構建微服務架構》系列文章中介紹了Hystrix服務降級與Hystrix斷路器的概念。但是，還是一直收到這樣的提問：降級與熔斷區別是什麼？並且在很多交流過程中，發現有不少童鞋對降級和熔斷的概念有混淆的情況。所以，這篇博文準備換一種方式來說說這兩個概念，以幫助讀者更好的理解

轉帖：#pragma once與 #ifndef的區別

為了避免同一個檔案被include多次 1 #ifndef 方式 2 #pragma once方式在能夠支援這兩種方式的編譯器上，二者並沒有太大的區別，但是兩者仍然還是有一些細微的區別。方式一： #ifndef __SOMEFILE_H__ #de

Spark：如何替換sc.parallelize(List(item1,item2)).collect().foreach(row=>{})為並行？

tty ima tle items class tab 個數 min 集合代碼場景： 1）設定的幾種數據場景，遍歷所有場景：依次統計滿足每種場景條件下的數據，並把統計結果存入hive； 2）已有代碼如下： case class IndoorOTTCali

面試題：Hive on Spark與SparkSql的區別

Hive on Spark與SparkSql的區別 hive on spark大體與SparkSQL結構類似，只是SQL引擎不同，但是計算引擎都是spark！核心程式碼 #初始化Spark SQL #匯入Spark SQL from pyspark.sql import Hiv

Spark：sc.textFiles() 與 sc.wholeTextFiles() 的區別

相關推薦