pyspark讀寫SequenceFile

阿新 • • 發佈：2018-12-21

完整程式碼如下：

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# @Author: appleyuchi
# @Date:   2018-07-19 14:59:02
# @Last Modified by:   appleyuchi
# @Last Modified time: 2018-07-20 14:59:51
import subprocess
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
conf = SparkConf(). setMaster( "local"). setAppName( "My App")
sc = SparkContext( conf = conf)
lines=sc.textFile("README.md")
def g(x):
    print x


print"-----------------Example 5-20書上程式碼有誤,誤用了scala----------------------------------------------------"
print"-----------------下面先是序列化,寫入SequenceFile-------------------"
rdd = sc.parallelize(["2,Fitness", "3,Footwear", "4,Apparel"])
ret = subprocess.call(["rm", "-r","testSeq"], shell=False)
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")
ret = subprocess.call(["rm", "-r","testSeqNone"], shell=False)
rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")#這的意思是保留整個字串

print"-----------------再是反序列化，讀取SequenceFile-------------------"
Text = "org.apache.hadoop.io.Text"
print (sc.sequenceFile("./testSeq/part-00000", Text, Text).values().first())
print"------------------------------------"
result=sc.sequenceFile("./testSeqNone/part-00000", Text, Text).values()
print type(result)
print result.foreach(g)
print (sc.sequenceFile("./testSeqNone/part-00000", Text, Text).values().first())

pyspark讀寫SequenceFile

完整程式碼如下： # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') # @Author: appleyuchi # @Date: 2018-07-19 14:59

pySpark讀寫CSV檔案、查重並寫入CSV檔案中

前段時間在研究 pySpark 資料處理，深刻地感受到spark的極大魅力。自己是一個初學者，這篇部落格也只是簡單的完成了幾個簡單的工作任務，哈哈@@不說了上程式碼：from pyspark import SparkConf,SparkContext import csv

pyspark中dataframe讀寫資料庫

本文只討論spark藉助jdbc讀寫mysql資料庫一，jdbc 想要spark能夠從mysql中獲取資料，我們首先需要一個連線mysql的jar包，mysql-connector-java-5.1.40-bin.jar 將jar包放入虛擬機器中合適的位置，比如我放置在/home/sx

pyspark系列--讀寫dataframe

目錄 1. 連線spark from pyspark.sql import SparkSession spark=SparkSession \ .builder \ .appName('my_first_

Android NFC近場通信02----讀寫卡的準備工作

是否即將 oid win wrap img pac 適配器 style Android NFC近場通信02----讀寫卡的準備工作因為公司接了一個聽上去感覺比較NB的項目。給某油田做派工系統。並由

C 文件隨機讀寫

stop eat 取出指針偏移 inpu fopen oid ont 1 #include <stdio.h> 2 #include <stdlib.h> 3 4 void eatline(){ 5 while(getc

Linux C,文件讀寫函數

err urn view stdlib.h ungetc put stream end linu C標準庫提供的用於讀寫文件的函數非常多，大多數函數都在stdio.h中聲明. fread/fwrite，fgets/fputs，fgetchar/fputchar，fprint

STM32的RFID射頻讀寫控制裝置

please include .cn mage str rfid alt all float ，大二上學期做的，過了很久，先上一下圖：這並不是做個最後一版；主體是RC552+STM32+1062；蜂鳴器，繼電器，LED等；反正最後的效果就是，刷一下卡，1602顯示一下持

NodeJs之fs的讀寫刪移監塊

node js NodeJs版本:4.4.4fs文件系統模塊是一個封裝了標準的 POSIX 文件 I/O 操作的集合。Node.js 文件系統（fs 模塊）模塊中的方法均有異步和同步版本。圖片的復制與粘貼創建一個可讀流與一個寫入流。通過管道pipe。var fileReadStream = fs.cre

二進制文件的讀寫

取數 java imp sta exception 對象代碼使用 ktr 一、使用字節流類DataInputStream讀取二進制文件　　具體操作步驟如下：　　1.引入相關的類　　　　import java.io.FileInputStream; 　　　　i

Linux下直接讀寫物理地址內存

ann erro 分頁 .... gpio 細心 key 單位開發虛擬轉物理地址 virt_to_phys( *addr );物理轉虛擬地址 phys_to_virt( *addr ); 如： unsigned long pProtectVA;

MySQL Proxy 讀寫分離（實戰總結）

mysql proxy；讀寫分離規劃：主mysql服務器：192.168.1.21 從mysql服務器： 192.168.1.22 mysql讀寫分離器：192.168.1.23 1、讀寫分離服務器上解壓安裝包，並添加對應用戶，並編輯啟動腳本； # tar xf mysql-proxy-

配置文件的讀寫

copy ssd 服務器主程 tostring 當前 opera enc top System.ConfigurationManager類用於對配置文件的讀取。其具有的成員如下：一、AppSettings 　　AppSetting是最簡單的配置節，讀寫非常簡單。

零基礎學python-3.7 還有一個程序 python讀寫文本

efi == put ret mode nbsp inpu exce for each 今天我們引入另外一個程序，文件的讀寫我們先把簡單的程序代碼貼上。然後通過我們多次的改進。希望最後可以變成一個簡單的文本編輯器以下是我們最簡單的代碼： ‘crudfile--讀寫文

簡單Java程序向實用程序的過度：二進制文件的讀寫

har finally exc min 過度對象 writer dos int File I/O中常見的文件讀寫： 1.字節流讀寫文本文件 FileInputStream; FileOutputStream; 2.字符流讀寫文本文件 FileReader; FileWri

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

redis讀寫分離，主從復制

req con word redis讀寫分離分離 bsp onf 服務 master master配置：（主服務 redis.conf）　　requirepass masterpassword （配置密碼）　　port 6379 （配置端口） slave配置　　re

使用phpexcel類讀寫excel文件

如何 blank 第三方類庫第三方類文件 pex ffi bsp 地址使用原生php讀寫excel文件的博文地址：基於使用原生php讀寫excel文件的不靠譜，本文將簡單介紹如何使用第三方類庫phpexcel來讀寫excel文件。首先，需要到githut下載php

R語言使用RMySQL連接及讀寫Mysql數據庫

技術分享 fcm list adl 創建數據庫 package install sql安裝 packages 簡單說下安裝過程，一般不會有問題，重點是RMySQL的使用方式。系統環境說明 Redhat系統：Linux 460-42.6.32-431.29.2.el6.

mysql+mysql_proxy實現讀寫分離

mysql-_proxymysql讀寫分離需要基於主從架構實現 mysql主從配置：http://hongchen99.blog.51cto.com/12534281/1917137 mysql-proxy：用於實現mysql主從分離，基於主從架構讀寫分離存在的最大問題就是主從同步延遲安裝my

pyspark讀寫SequenceFile

相關推薦