Spark SQL大資料處理並寫入Elasticsearch

阿新 • • 發佈：2018-12-15

 1 # coding: utf-8
 2 import sys
 3 import os
 4 
 5 pre_current_dir = os.path.dirname(os.getcwd())
 6 sys.path.append(pre_current_dir)
 7 from pyspark.sql import SparkSession
 8 from pyspark.sql.types import *
 9 from pyspark.sql.functions import udf
10 from settings import ES_CONF
11 
12 current_dir = os.path.dirname(os.path.realpath(__file__ 
))
13 
14 spark = SparkSession.builder.appName("weather_result").getOrCreate()
15 
16 
17 def get_health_level(value):
18     """
19     PM2.5對應健康級別
20     :param value:
21     :return:
22     """
23     if 0 <= value <= 50:
24         return "Very Good"
25     elif 50 < value <= 100:
26         return 
 "Good"
27     elif 100 < value <= 150:
28         return "Unhealthy for Sensi"
29     elif value <= 200:
30         return "Unhealthy"
31     elif 200 < value <= 300:
32         return "Very Unhealthy"
33     elif 300 < value <= 500:
34         return "Hazardous"
35     elif value > 500:
36 
         return "Extreme danger"
37     else:
38         return None
39 
40 
41 def get_weather_result():
42     """
43     獲取Spark SQL分析後的資料
44     :return:
45     """
46     # load所需欄位的資料到DF
47     df_2017 = spark.read.format("csv") \
48         .option("header", "true") \
49         .option("inferSchema", "true") \
50         .load("file://{}/data/Beijing2017_PM25.csv".format(current_dir)) \
51         .select("Year", "Month", "Day", "Hour", "Value", "QC Name")
52 
53     # 檢視Schema
54     df_2017.printSchema()
55 
56     # 通過udf將字元型health_level轉換為column
57     level_function_udf = udf(get_health_level, StringType())
58 
59     # 新建列healthy_level 並healthy_level分組
60     group_2017 = df_2017.withColumn(
61         "healthy_level", level_function_udf(df_2017['Value'])
62     ).groupBy("healthy_level").count()
63 
64     # 新建列days和percentage 並計算它們對應的值
65     result_2017 = group_2017.select("healthy_level", "count") \
66         .withColumn("days", group_2017['count'] / 24) \
67         .withColumn("percentage", group_2017['count'] / df_2017.count())
68     result_2017.show()
69 
70     return result_2017
71 
72 
73 def write_result_es():
74     """
75     將SparkSQL計算結果寫入到ES
76     :return:
77     """
78     result_2017 = get_weather_result()
79     # ES_CONF配置 ES的node和index
80     result_2017.write.format("org.elasticsearch.spark.sql") \
81         .option("es.nodes", "{}".format(ES_CONF['ELASTIC_HOST'])) \
82         .mode("overwrite") \
83         .save("{}/pm_value".format(ES_CONF['WEATHER_INDEX_NAME']))
84 
85 
86 write_result_es()
87 spark.stop()

Spark SQL大資料處理並寫入Elasticsearch

1 # coding: utf-8 2 import sys 3 import os 4 5 pre_current_dir = os.path.dirname(os.getcwd()) 6 sys.path.append(pre_current_dir) 7 from pyspark.sq

Spark SQL大數據處理並寫入Elasticsearch

可能 value exc ima dirname .py _file__ down show SparkSQL(Spark用於處理結構化數據的模塊) 通過SparkSQL導入的數據可以來自MySQL數據庫、Json數據、Csv數據等，通過load這些數據可以對其做一系列計算

Spark SQL 大資料處理

InfoQ 上有學者對 Spark 的大資料處理，做了一些歸納演講我嘗試著對這些演講做翻譯，加入了一些自己的理解和實驗理解是我自己的，有可能是錯誤的，實驗是為了證明自己的理解是正確的 Big Data Processing with Apache Sp

spark sql 查詢hive表並寫入到PG中

clas sel append nec pro 增加 word postgres erro import java.sql.DriverManager import java.util.Properties import com.zhaopin.tools.{DateU

Apache Spark：大資料處理統一引擎

工業和研究中資料的大幅增長為電腦科學帶來了巨大的機會與挑戰。由於資料大小超過了單臺機器的能力，使用者需要新的系統將計算擴充套件到多個節點。因此，針對不同計算工作負載的新叢集程式設計模型已呈爆炸式增長。這些模型相對專業化。例如支援批處理的MapReduce，支援迭

用Apache Spark進行大資料處理四

如何安裝Spark 安裝和使用Spark有幾種不同方式。你可以在自己的電腦上將Spark作為一個獨立的框架安裝或者從諸如Cloudera，HortonWorks或MapR之類的供應商處獲取一個Spark虛擬機器映象直接使用。或者你也可以使用在雲端環境（如Databricks

用Apache Spark進行大資料處理之用Spark GraphX圖資料分析（6）

import org.apache.spark._ import org.apache.spark.graphx._ import org.apache.spark.rdd.RDD import java.util.Calendar // 先匯入邊 val graph = GraphLoader.edgeL

用Apache Spark進行大資料處理二

Spark特性 Spark通過在資料處理過程中成本更低的洗牌（Shuffle）方式，將MapReduce提升到一個更高的層次。利用記憶體資料儲存和接近實時的處理能力，Spark比其他的大資料處理技術的效能要快很多倍。 Spark還支援大資料查詢的延遲計算，這可以幫助優化大資

大資料處理為何選擇Spark，而不是Hadoop

一.基礎知識1.SparkSpark是一個用來實現快速而通用的叢集計算的平臺。在速度方面，Spark擴充套件了廣泛使用的MapReduce計算模型，而且高效地支援更多計算模式，包括互動式查詢和流處理。Spark專案包含多個緊密整合的元件。Spark的核心是一個對由很多計算任務組成的、執行在多個工作機器或者是一

Spark SQL將資料寫入Mysql表的一些坑

轉自:https://blog.csdn.net/dai451954706/article/details/52840011/ 最近，在使用Spark SQL分析一些資料，要求將分析之後的結果資料存入到相應的MySQL表中。但是將資料處理完了之後，存

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

寫在前面：在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼，的確是的，從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式，但是仔細看就會發現這些用Scala寫的文章

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（四）——移動平均

移動平均：對時序序列按週期取其值的平均值，這種運算被稱為移動平均。典型例子是求股票的n天內的平均值。移動平均的關鍵是如何求這個平均值，可以使用Queue來實現。 public class MovingAverageDriver { public

搭建大資料處理叢集（Hadoop，Spark，Hbase）

搭建Hadoop叢集配置每臺機器的 /etc/hosts保證每臺機器之間可以互訪。 120.94.158.190 master 120.94.158.191 secondMaster 1、建立hadoop使用者先建立had

流式大資料處理（實時）的三種框架：Storm，Spark和Samza

摘要：許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對Storm、Spark和Samza等三種Apache框架分別進行簡單介紹，然後嘗試快速、高度概述其異同。許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對三種Apache框架分別進行簡單介紹，

流式大資料處理的三種框架：Storm，Spark和Samza

許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對三種Apache框架分別進行簡單介紹，然後嘗試快速、高度概述其異同。Apache Storm在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給叢集，由叢集中

[BigData]流式大資料處理的三種框架：Storm，Spark和Samza

許多分散式計算系統都可以實時或接近實時地處理大資料流。本文將對三種Apache框架分別進行簡單介紹，然後嘗試快速、高度概述其異同。 Apache Storm 在Storm中，先要設計一個用於實時計算的圖狀結構，我們稱之為拓撲（topology）。這個拓撲將會被提交給叢集，由叢集中的主控節點（maste

大資料處理之——簡明Spark介紹

很多涉及或者並行式機器學習工作或者大資料處理的崗位，基本都會有要求會使用Hadoop/Hive/Spark/Storm這幾個開源工具，那麼針對其中比較主流的Spark，我在這裡做一個比較簡單地總結。什麼是Spark？在技術不斷告訴更迭的程式

流式大資料處理的三種框架：Storm，Spark和Flink

storm、spark streaming、flink都是開源的分散式系統，具有低延遲、可擴充套件和容錯性諸多優點，允許你在執行資料流程式碼時，將任務分配到一系列具有容錯能力的計算機上並行執行,都提供

大資料處理引擎Spark與Flink對比分析！

大資料技術正飛速地發展著，催生出一代又一代快速便捷的大資料處理引擎，無論是Hadoop、Storm，還是後來的Spark、Flin

Debezium SQL Server Source Connector+Kafka+Spark+MySQL 實時資料處理

寫在前面前段時間在實時獲取SQLServer資料庫變化時候，整個過程可謂是坎坷。然後就想在這裡記錄一下。本文的技術棧： Debezium SQL Server Source Connector+Kafka+Spark+MySQL ps:後面應該會將資料放到Kudu上。然後主要記錄一下，整個元件使用和元

Spark SQL大資料處理並寫入Elasticsearch

相關推薦