1. 程式人生 > >pyspark輸出RDD中的內容

pyspark輸出RDD中的內容

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# @Author: appleyuchi
# @Date:   2018-07-14 16:29:23
# @Last Modified by:   appleyuchi
# @Last Modified time: 2018-07-15 19:07:31
from pyspark import SparkConf, SparkContext
conf = SparkConf(). setMaster( "local"). setAppName( "My App")
sc = SparkContext( conf = conf)
lines=sc.textFile("README.md")


def g(x):
    print x

print"-------------------------------------------------------------------------------------------------------"

#Example 4-1
pairs = lines.map(lambda x: (x. split(" ")[0],x))
pairs.foreach(g)#列印RDD中的內容,這個列印的內容全部都來自READ.ME
print"☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆"

上述程式碼種pairs是RDD,然後使用foreach輸出即可.

注意輸出方法適用於PipeLineRDD

collect()不能應用與PipeLineRDD的輸出

相關推薦

pyspark輸出RDD內容

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') # @Author: appleyuchi # @Date: 2018-07-14 16:29:23 # @Las

用python比較兩個文件內容的不同之處, 並輸出行號和內容.

exist file diff pre ffline += == list cmp 代碼部分: ‘‘‘cmpfile.py - 比對兩個文件, 如果有不同之處, 打印內容和行號‘‘‘ import os class cmpFile: def __init__(

使用copy函數輸出容器內容

使用 begin c-s 元素 頭文件 ont 字符 end 文件中 container<type> c; 輸出語句為:copy(c.begin(), c.end(), ostream_iterator<type>(cout, " ")); 這句代

修改tensorflow checkpoint內容 TensorFlow 輸出checkpoint 的變數名與變數值

https://blog.csdn.net/qq_33666011/article/details/80522564 看上了兩篇文章~想留著哈哈哈~轉載自 https://blog.csdn.net/qq_32799915/article/detai

Java讀寫檔案,在檔案搜索內容,並輸出含有該內容的所有行

1.問題描述 在一個目錄及子目錄下查詢 TXT或Java檔案,從中搜索所有“物件”字樣的行。 在D盤中的所有檔案中搜索含有“物件”的行。 2.解題思路 先找出D盤下所有檔案 再對每個檔案中的每行內容進行,進行查詢,若含有“物件”兩字,輸出該行。 3.程式程式碼 im

讀取文字檔案Student.txt內容(編號,姓名,成績)存放到學生物件,並新增到集合物件,然後將分數低於等於80分的學生輸出到另外一個檔案

讀取文字檔案中Student.txt中內容(編號,姓名,成績)存放到學生物件中,並新增到集合,然後將分數低於等於80分的學生輸出到另外一個檔案中 大概說一下,這裡面加上main函式一共有addlist()、outgrade()、creatstu()4個方法。

如何列印Spark RDD內容

一、方法 2種方式: 1              rdd.collect().foreach {println} 2              rdd.take(10).foreach { println } //take(10) 取前10個 二、例子

列印三角形、已三角形方式 輸出陣列內容

public class Test_San {public static void main(String[] args) {Print_a(9);char[] arr = {'A','B','C','D','E','F','G'};Print_b(arr);}publi

java使用佔位符輸出包含動態內容的訊息

 package cn.com.itsource; import java.text.MessageFormat; import java.util.Locale; import java.util

Linux一個文件10行內容,如何輸出5-8內容到屏幕

linux基礎命 amp 實現 核心 txt linux中 style linux基礎命令 中一 題目是這樣的,Linux中一個文件10行內容,如何輸出5-8內容到屏幕首先我們模擬一下這樣的環境: [root@localhost question]# pwd /root/

JQuery內容操作函數、validation表單校驗

調用方法 scrip 註意 語言 rul asc javascrip 最前面插入 獲取 JQuery:內容體拼接(可以直接拼接元素節點和內容節點)   JQuery實現:     方案1:A.append(B); == B.appendTo(A);A的後面拼接B    

[python]獲取網頁內容為漢字的字符串的判斷

vsr rbo ats art htm acad for swe lin IPerf%E2%80%94%E2%80%94%E7%BD%91%E7%BB%9C%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7%E4%BB%8B%E7%BB%8D%E4%B

Centos查詢目錄內容命名ls

超級用戶 logs ges module cond 9.png img 文件信息 nac 首先解釋下這塊, root代表當前登錄用戶,localhost代表主機名, ~代表當前主機目錄, #代表用戶權限 #表示超級用戶,$表示普通用戶; 查詢目錄中內

案例15:avro 負載均衡的方式動態獲取文件內容

it需求: 將131上產生的日誌文件負載均衡到 132 和133機器上如圖: 配置132 機器和133機器 (相同))arov.confa1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the sourc

Python抓取手機APP內容

quest 手機app 開始 clas tex json 完成 keep 抓取 首先下載Wireshark和模擬器(天天模擬器,夜神模擬器),天天模擬器在自帶的應用商店裏面能夠登錄微信。 然後打開Wireshark選擇一個網卡開始抓包。 開始抓包後,在模擬器中要抓取的APP

輸出頂點i到頂點j之間的所有簡單路徑

arc [] 遍歷 nod list edge void 所有 num 簡單路徑(不包括環) DFS遍歷以及回溯得到結果 void dfs(ALGraph graph, int v, int end, bool visit[], int path[], int cnt)

Python 輸出文件內容到網絡端口

bsp __name__ 輸出 [1] exit send cond lee line Python 輸出文件內容到網絡端口 $ cat mySocketTest.py import sysimport timeimport socket if __name

pyspider內容選擇器常用方法匯總

實例 .text span 部分 ons test tag .cn 給定 pyspider 的內容選擇器默認已經實例化一個pyquery對象,可以直接使用pyquery的api來獲取自己需要的內容。 1.在pyquery中使用response.doc就可以直接實例化一個py

jquery.dataTables列內容居中問題?求解?

pac align alt 內容 vertica div pos css 求解 .table > tbody > tr > td { vertical-align: middle; }jquery.dataTables列中內容居中問題?求解?

python文件內容轉換為字典

class col 文件中 lin AS open strip pre python 例1:根據文件中內容的格式可以將其轉換為字典: 文件名:word.txt, 其內容如下: wwww  12345        123344  謾語        往往   來來 1