大資料ETL實踐探索（3）---- pyspark 之大資料ETL利器

阿新 • • 發佈：2018-12-09

5.spark dataframe 資料匯入Elasticsearch

5.1 dataframe 及環境初始化

初始化， spark 第三方網站下載包：elasticsearch-spark-20_2.11-6.1.1.jar
http://spark.apache.org/third-party-projects.html

import sys
import os
print(os.getcwd())
# 載入包得放在這裡
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars elasticsearch-spark-20_2.11-6.1.1.jar pyspark-shell' 


import os
from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql.types import *
from pyspark.sql import functions as F
from pyspark.storagelevel import StorageLevel
import json
import math
import numbers
import numpy as np
import pandas as pd

os.environ["PYSPARK_PYTHON" 
] = "/home/hadoop/anaconda/envs/playground_py36/bin/python"



try:
    spark.stop()
    print("Stopped a SparkSession")
except Exception as e:
    print("No existing SparkSession")

SPARK_DRIVER_MEMORY= "10G"
SPARK_DRIVER_CORE = "5"
SPARK_EXECUTOR_MEMORY= "3G"
SPARK_EXECUTOR_CORE = "1"


conf = SparkConf() 
.\
        setAppName("insurance_dataschema").\
        setMaster('yarn-client').\
        set('spark.executor.cores', SPARK_EXECUTOR_CORE).\
        set('spark.executor.memory', SPARK_EXECUTOR_MEMORY).\
        set('spark.driver.cores', SPARK_DRIVER_CORE).\
        set('spark.driver.memory', SPARK_DRIVER_MEMORY).\
        set('spark.driver.maxResultSize', '0').\
        set("es.index.auto.create", "true").\
        set("es.resource", "tempindex/temptype").\
        set("spark.jars", "elasticsearch-hadoop-6.1.1.zip")  # set the spark.jars
    
        
spark = SparkSession.builder.\
    config(conf=conf).\
    getOrCreate()

sc=spark.sparkContext
hadoop_conf = sc._jsc.hadoopConfiguration()

hadoop_conf.set("mapreduce.fileoutputcommitter.algorithm.version", "2")

5.2 清洗及寫入資料

資料載入

#資料載入
df = (spark
                 .read
                 .option("header","true")
                 .option("multiLine", "true")
                 .csv('EXPORT.csv')
                 .cache()
                )
print(df.count())


#

資料清洗，增加一列，或者針對某一列進行udf 轉換

'''  
#加一列yiyong ，如果是眾城資料則為zhongcheng
'''

from pyspark.sql.functions import udf


from pyspark.sql import functions
df = df.withColumn('customer',functions.lit("騰訊使用者"))

使用udf 清洗時間格式及數字格式

#udf 清洗時間
#清洗日期格式欄位
from dateutil import parser

def clean_date(str_date):
    try:
        if str_date:
            d = parser.parse(str_date)
            return d.strftime('%Y-%m-%d')
        else:
            return None
    except Exception as e:
         return None
        


func_udf_clean_date = udf(clean_date, StringType())

def is_number(s):
    try:
        float(s)
        return True
    except ValueError:
        pass
    return False

def clean_number(str_number):

    try:
        if str_number:

                if is_number(str_number):
                    return str_number
                else:
                    None
        else:
            return None
    except Exception as e:
        return None




func_udf_clean_number = udf(clean_number, StringType())

column_Date = [
"DATE_FROM",
"DATE_TO",
]


for column in column_Date:
      df=df.withColumn(column,  func_udf_clean_date(df[column]))

df.select(column_Date).show(2)

在這裡插入圖片描述

#資料寫入

df.write.format("org.elasticsearch.spark.sql").\
option("es.nodes", "IP").\
option("es.port","9002").\
mode("Overwrite").\
save("is/doc")

大資料ETL實踐探索（3）---- pyspark 之大資料ETL利器

5.spark dataframe 資料匯入Elasticsearch 5.1 dataframe 及環境初始化初始化， spark 第三方網站下載包：elasticsearch-spark-20_2.11-6.1.1.jar http://spark.apache.org/t

大資料ETL實踐探索（4）---- 之搜尋神器elastic search

3.本地檔案匯入aws elastic search 修改訪問策略，設定本地電腦的公網ip，這個經常會變化，每次使用時候需要設定一下安裝anancota https://www.anaconda.com/download/ 初始化環境，win10下開啟Anaco

大資料ETL實踐探索（1）---- python 與oracle資料庫匯入匯出

文章大綱 ETL 簡介工具的選擇 1. oracle資料泵匯入匯出實戰 1.1 資料庫建立 1.2. installs Oracle 1.3 export / import data from oracle

大資料ETL實踐探索（2）---- python 與aws 互動

文章大綱本文主要使用python基於oracle和aws 相關元件進行一些基本的資料匯入匯出實戰，oracle使用資料泵impdp進行匯入操作，aws使用awscli進行上傳下載操作。本地檔案上傳至aws es，spark dataframe錄

資料探索（3）Python主要資料探索函式

Python中用於資料探索的庫主要是Pandas（資料分析）和Matplotlib（資料視覺化）。資料探索函式可大致分為統計特徵函式和統計作圖函式。 Pandas的主要統計特徵函式。 sum（）列總和 mean（）平均數 var（）方差 std（）標準差 corr（）Spear

第六篇：基本資料型別及用法（3）

集合set 1.集合由不同無序的元素組成，集合中只能存放不可變型別（數字，字串，元祖），例如：s={123,"abc",(1,2,"a")} -重複元素會被去除，所以可用集合去重，例:不考慮順序，去除列表li中重複元素 1 li=["alex",123,"he

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

#爬蟲的post方式作用：對引數進行打包反饋給伺服器 import urllib.request import urllib.parse #對引數打包 url = "http://www.sunck.wang:8085/form" data = { "use

fastai案例學習（3）——MNIST手寫資料集

本文主要介紹fastai自帶的案例，MNIST手寫資料集。 1、匯入包。 import fastai from fastai import * from fastai.vision import * 2、下載MNIST資料集。 path = untar_data(URLs.MNI

野生前端的資料結構基礎練習（3）——連結串列

連結串列的基本知識特點：連結串列由節點組成，每個節點增加一個物件的引用指向它的後繼節點。連結串列也就是將一個線性錶轉換為一個儲存空間上不連續，而在抽象層面可連續訪問的表。用途：更快的插入和刪除，因為只需要操作插入刪除位置相鄰元素即可，如果線上性表中，操作中間位置的元素後，後續的元素位置都需要調整

linux核心探索（3）--系統呼叫(傳參)

踩坑啊啊啊啊啊啊！！！目錄 10、測試核心版本：開始： 1、編寫sys.c /usr/src/linux-4.18.11/kernel/sys.c 新增： #include <linux/linkage.

資料結構與演算法（3）- C++ STL與java se中的vector

宣告：雖然本系列部落格與具體的程式語言無關。但是本文作者對c++相對比較熟悉，其次是java，所以難免會有視角上的偏差。舉例也大多是和這兩門語言相關。上一篇部落格概念性的介紹了vector，我們有了大致的印象：vector不過就是看上去可以自增長的陣列麼。這篇部落格將稍微

資料結構與演算法（3）—— 佇列（java）

1 陣列實現的佇列 public class ArrayQueue { private String[] items; private int n=0; //陣列的大小 private int head

Numpy學習（3）：將mnist資料檔案讀入到資料結構（numpy陣列）中

''' 使用python解析二進位制檔案 ''' import numpy as np import struct def loadImageSet(filename): binfile = open(filename, 'rb') # 讀取二進位制檔案 buffers = bin

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

kafka 權威指南--讀書筆記-（3）向kafka寫入資料

（1）kafka生產者設計和元件（1）不同的應用場景對訊息有不同的需求，即是否允許訊息丟失、重複、延遲以及吞吐量的要求。不同場景對Kafka生產者的API使用和配置會有直接的影響。例子1：信用卡事務處理系統，不允許訊息的重複和丟失，延遲最大500ms，對吞吐量要求較高

資料結構複習筆記（一）：書籍《資料結構》劉大有版（更新中。。。）

資料結構是指由若干資料成分按照一定方式構成的符合資料以及作用於其上的函式或運算。資料成分及其間的資料約束關係合稱為資料結構的邏輯結構。有些人也認為資料結構應由資料的邏輯結構、資料的儲存結構及其運算（操作：查詢、刪除、遍歷等）三部分組成。 1.1資料的邏輯

ROS學習記錄（3）--Kobuki控制大合集

宣告：本文收錄Kobuki所有操作命令，以後都在本文更新。 1.啟動Kobuki roslaunch kobuki_node minimal.launch 2.改變顏色或關閉LED（通過釋出話

嚴蔚敏版資料結構學習筆記（3）：棧

棧是隻能在表尾進行插入和刪除的一種簡單一點的線性表。表尾端是棧頂(top)，表頭端是棧底(bottom)，不含元素的稱為空棧。因為我們只能對棧頂的元素進行插入和刪除操作，所以棧這個資料結構就是一個很有”原則”的結構，棧的修改是按照後進先出的原則進行的，也就是LI

極客時間——資料結構與演算法（3）

一、什麼是複雜度分析？ 1.資料結構和演算法解決是“如何讓計算機更快時間、更省空間的解決問題”。 2.因此需從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能。 3.分別用時間複雜度和空間複雜度兩個概念來描述效能問題，二者統稱為複雜度。 4.複雜度描述的是演算法執行

Android 從零學資料結構與演算法（3）——HashMap和LinkedHashMap

本部落格的原創文章，都是本人平時學習所做的筆記，不做商業用途，如有侵犯您的智慧財產權和版權問題，請通知本人，本人會即時做出處理刪除文章。HashMap 基於雜湊表（散列表）的Map介面的實現，允許使用null鍵和null值，HashMap是非執行緒安全的，資料元

大資料ETL實踐探索（3）---- pyspark 之大資料ETL利器

5.spark dataframe 資料匯入Elasticsearch

5.1 dataframe 及環境初始化

5.2 清洗及寫入資料

相關推薦