利用pyspark 讀取 S3上資料

阿新 • • 發佈：2018-11-04

    spark = SparkSession.builder.master('local').appName("hxy_test_script").getOrCreate()
    sc = spark.sparkContext
    # s3環境
    sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", 你的s3ID-key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", 你的s3SECRET-key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.cn-north-1.amazonaws.com.cn")

    rdd_data = sc.wholetextFile("s3a://要讀的bucket_name/text/xxx.txt")  # 舉例的，實際情況看自己路徑
    print (rdd_data.take(10))

注意：以上只是程式碼層面，但是執行會有問題，因為spark讀取s3檔案，

必須要有aws涉及到的兩個依賴包：aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar

當專案裡有這兩個包了後，提交spark採用如下就可以了：

spark-submit --jars aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar --master local test_extract_model_spark.py

ps：我的是本地spark，伺服器上的：（我的舉例如下）============================================

初始化改為：spark = SparkSession.builder.master('your-spark伺服器-url').appName("hxy_test_script").getOrCreate()

提交改為：spark-submit -jars aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar --master spark://192.168.31.10:7077 --executor-memory 40G --total-executor-cores 20 test_extract_model_spark.py

利用pyspark 讀取 S3上資料

spark = SparkSession.builder.master('local').appName("hxy_test_script").getOrCreate() sc = spark.sparkContext # s3環境 sc._jsc.hadoopC

小例子：java利用poi讀取excel中資料並匯入資料庫

問題描述：資料夾下有若干excel檔案,檔名為10.教育局.xls 11.衛生院.xls ................有很多；中間的漢字為單位名稱，需要匯入資料庫，每個單位名稱要有一個單位id匹配；每個excel中有若干個sheet頁的名字,每個名字即為科

利用Document讀取和修改資料

Document是Node的子介面，首先具有Node內提供的所有工能，但是提供的讀取資料的方法，又具有自己特有的API。（1）Element getDocumentEleme

TensorFlow 利用Dataset讀取和構建資料

TensorFlow資料讀取方式：利用placeholder讀取記憶體資料 Dataset API同時支援從記憶體和硬碟的讀取，相比之前的兩種方法在語法上更加簡潔易懂 Dataset建立和讀取資料集 Google官方給出的Dataset

java利用poi讀取excel中資料

所需的jar包：程式碼： /** * * @param cell * 一個單元格的物件 * @return 返回該單元格相應的型別的值 */ public static Object getRightTypeCell(Ce

Java 將資料寫入磁碟並讀取磁碟上的檔案

package test; import java.io.BufferedReader;import java.io.FileReader;import java.io.FileWriter;import java.util.ArrayList;import java.util.List; public

8、利用xlrd讀取excel資料

在同一個sheet表中可以有多個表，表與表之間用空格來隔離，遇到空格，則認為這個表結束了。程式碼如下： import xlrdfile_path = "C:/Users/Administrator/Desktop/python/excel/1.xlsx"sheet_name = '表2't

10、利用POI讀取excel資料

自動化指令碼和資料是分離的，這裡是通過POI來實現excel的資料讀取的。以下實現的是1個excel sheet表中可以分作多個表，判斷一個表是否結束是根據空格來的。程式碼為： package common;import java.util.ArrayList;import java.

利用POI外掛匯入excel 讀取合併行資料

圖為要匯入的excel格式分析一下：前一部分資料是讀取合併行存入一張 “會見” 表，後面藍色的非合併行存入 “會見人資訊” 表。先說後臺方法，（讀取本地檔案例子） public void importJsInfo() throws IOExceptio

C++學習筆記-利用rapidJSON讀取JSON資料

JSON檔案如下： { "errorCode":0, "reason":"OK", "result": {"userId":10086,"name":"中國移動"}, "numbers":[110,120,119,911] } 目錄結構如下：

Hive讀取HDFS上面的資料和使用Squirrel客戶端連線Hive

一、把資料從HDFS匯入到hive的表裡前面已經測試了利用Sqoop把資料從SQL Server匯入到hdfs中，但是分成了好多小檔案，正在思考如何把很多小檔案一起匯入到hive裡面，突然想到可以用*來代替啊。 1.建表在hive裡面建立好對應的表格 create t

遙感影象處理 | 利用GDAL開啟影象並讀取影象元資料（波段）資訊（C#）

事前準備：編譯並配置GDAL庫。函式和方法說明： public static Dataset Open(string utf8_path, Access eAccess) 從指定路徑讀取柵格資料。第一個引數是柵格資料的路徑，第二個引數是開啟資料的模式，GA_ReadOnly表

利用matlab計算在任一資料上的密度函式值

clear; u=random(‘Normal’,0,1,1,1000)’;%原始資料 e1=u; quant=0.1; [f2,x2] = ksdensity(e1); qqq=quantile(e1,quant); [xx,index]=sort(abs(x

利用Python爬取房產資料！並在地圖上顯示！Python乃蒂花之秀！

JiwuspiderSpider.py # -*- coding: utf-8 -*- from scrapy import Spider,Request import re from jiwu.items import JiwuItem clas

ROS上利用usb_cam讀取攝像頭影象

電腦需要有USB3.0的介面我使用的環境為：Ubuntu16.04LTS ROS版本是kinetic 一、usb_cam驅動的安裝 1、建立ROS工作空間 mk

利用Servlet讀取HTML表單資料-Servlet學習筆記

一、客戶端傳遞資料的方式客戶端往web伺服器傳遞資料，通常有兩種方式：使用表單或者將資料附在URL後面。這些資料傳遞給Web伺服器中的程式後，通常需要將它們提取出來，然後對這些資料進行相應的處理。二、在Servlet中讀取客戶端傳送的資料 <FORM>標記是接收客戶端的輸入，講使用者輸入的資料提

利用Python讀取外部資料檔案

不論是資料分析，資料視覺化，還是資料探勘，一切的一切全都是以資料作為最基礎的元素。利用Python進行資料分析，同樣最重要的一步就是如何將資料匯入到Python中，然後才可以實現後面的資料分析、資料視覺化、資料探勘等。在本期的Python學習中，我們將針對Python如何獲取

動態許可權及利用ContentResolver讀取系統的可共享資料

動態許可權對照的參考如下；開啟組中其中一個許可權的授權則組內其他授權也會被開啟； //需要在6.0後做動態許可權的許可權組，其中開啟某一許可權組中一個則預設開啟組中其他許可權；；；  <

C++讀取txt檔案，並利用ROS將其作為資料流輸出

#include "ros/ros.h" #include "std_msgs/String.h" #include <sstream> #include <iostream> #include <vector> #include <

利用ImageIo讀取圖片的元資料

CGImageSourceRef imageSourceRef = CGImageSourceCreateWithURL((__bridge CFURLRef)url, NULL); CGImageMetadataRef metadataRef = CGImageSou

利用pyspark 讀取 S3上資料

相關推薦