Spark SQL 運算元例項

阿新 • • 發佈：2019-01-04

package sqlText

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.types.{StructType, IntegerType, StringType, StructField}

/**
  * Created by xiaoxu
  */
object SparkSQLAgg {
  def main(args: Array[String 
]) {
    System.setProperty("hadoop.home.dir", "E:\\winutils-hadoop-2.6.4\\hadoop-2.6.4")
    val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getName)
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    import sqlContext.implicits._
    val userData = Array 
(
      "2016-04-15,1001,http://spark.apache.org,1000",
      "2016-04-15,1001,http://hadoop.apache.org,1001",
      "2016-04-15,1002,http://fink.apache.org,1002",
      "2016-04-16,1003,http://kafka.apache.org,1020",
      "2016-04-16,1004,http://spark.apache.org,1010",
      "2016-04-16,1002,http://hive.apache.org,1200",
      "2016-04-16,1001,http://parquet.apache.org,1500" 
,
      "2016-04-16,1001,http://spark.apache.org,1800"
)
    import org.apache.spark.sql._
    val parallelize: RDD[String] = sc.parallelize(userData)
    val userDateRDDRow = parallelize.map(row => {
      val splitted = row.split(",")
      Row(splitted(0).replaceAll("-", ""), splitted(1).toInt, splitted(2), splitted(3).toInt)
    })
    // 構造欄位，與資料匹配，便於今後查詢
val structTypes = StructType(Array(
      StructField("date", StringType, true),
      StructField("id", IntegerType, true),
      StructField("url", StringType, true),
      StructField("amount", IntegerType, true)
    ))
    val createDataFrame = sqlContext.createDataFrame(userDateRDDRow, structTypes)
    //統計每個月的數量，直接顯示
createDataFrame.groupBy("date").agg("amount" -> "sum").write.json("")
    // 統計每個月的數量，直接顯示,資料量比較大時不能用collect,用write.json("")方法直接儲存資料即可
createDataFrame.groupBy("date").agg("amount" -> "sum").map(row => Row(row(0), row(1))).collect.foreach(println)

    // 停止改程式
    sc.stop()

}}

Spark SQL 運算元例項

package sqlText import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.a

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

Spark core運算元aggregateByKey例項

groupbykey、reducebykey以及aggregateByKey groupbykey是全域性聚合運算元，將所有map task中的資料都拉取到shuffle中將key相同的資料進行聚合，它存在很多弊端，例如：將大量的資料進行網路傳輸，浪費大量的資源，最重要的是如果資料量太大還會出現

Spark-Sql之DataFrame實戰詳解

集合 case 編程方式優化所表 register 操作數 print ava 1、DataFrame簡介：在Spark中，DataFrame是一種以RDD為基礎的分布式數據據集，類似於傳統數據庫聽二維表格，DataFrame帶有Schema元信息，即DataFram

Spark SQL編程指南（Python）【轉】

res 平臺 per 它的 split 執行文件的分組不同轉自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關系型查詢。它的核

Spark SQL 源代碼分析之Physical Plan 到 RDD的詳細實現

local 過濾右連接操作 images img mem sans 觀察 /** Spark SQL源代碼分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代碼分析之Physical Plan。本文將介紹Physical Plan的toRDD的

spark-sql case when 問題

spark 大數據 hadoop spark-sqlSELECT CASE (pmod(datediff(f0.`4168388__c_0`,‘1970-01-04‘),7)+1) WHEN ‘1‘ THEN ‘星期日‘ WHEN ‘2‘ THEN ‘星期一‘ WHEN ‘3‘ THEN ‘星期二‘ WHE

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

ati been -m displays txt -a 版本 ava form Spark SQL是處理結構化數據的Spark模塊。它提供了DataFrames這樣的編程抽象。同一時候也能夠作為分布式SQL查詢引擎使用。 DataFrames D

Spark SQL

mapr bsp 單機模塊 ont 比較分布整合技術 1.1. Spark SQL概述 1.1.1. 什麽是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作為分布式SQL查詢引

spark SQL概述

hive 徹底 es2017 ima img cor com font size Spark SQL是什麽？何為結構化數據 sparkSQL與spark Core的關系 Spark SQL的前世今生：由Shark發展而來 Spark

Spark SQL 編程

ima art tps ext img rdd point .cn ram Spark SQL的依賴 Spark SQL的入口：SQLContext 官方網站參考 https://spark.apache.org/docs/1.6.2/sql-programmi

Spark SQL 之 Join 實現

結構很多找到過濾 sql查詢優化 ade read 轉換成分析原文地址：Spark SQL 之 Join 實現 Spark SQL 之 Join 實現塗小剛 2017-07-19 217標簽： spark ，數據庫 Join作為SQL中

Spark-SQL連接Hive

ces submit mat targe runt match tms force trying 第一步：修個Hive的配置文件hive-site.xml 　　添加如下屬性，取消本地元數據服務： <property> <name>hive.

【Spark SQL 源碼分析系列文章】

blog .com data 原創 org 分析成了系列 ice 從決定寫Spark SQL源碼分析的文章，到現在一個月的時間裏，陸陸續續差不多快完成了，這裏也做一個整合和索引，方便大家閱讀，這裏給出閱讀順序：）第一篇 Spark SQL源碼分析之核心流程

第二篇：Spark SQL Catalyst源碼分析之SqlParser

end from pop tco 循環 -c font 多個再看 /** Spark SQL源碼分析系列文章*/ Spark SQL的核心執行流程我們已經分析完畢，可以參見Spark SQL核心執行流程，下面我們來分析執行流程中各個核心組件的工作職責。

第一篇：Spark SQL源碼分析之核心流程

example 協議 bst copyto name 分詞 oop 不同 spl /** Spark SQL源碼分析系列文章*/ 自從去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQ

第九篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 cache table

gravity base field eof 授權葉子節點 command ref gist /** Spark SQL源碼分析系列文章*/ Spark SQL 可以將數據緩存到內存中，我們可以見到的通過調用cache table tableName即可將一張表緩

第十篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 query

pro .net asn 解析 partition store exec attr_ array /** Spark SQL源碼分析系列文章*/ 前面講到了Spark SQL In-Memory Columnar Storage的存儲結構是基於列存儲的。那

第四篇：Spark SQL Catalyst源碼分析之TreeNode Library

pla where 並且手冊 input bst node lec esc /** Spark SQL源碼分析系列文章*/ 前幾篇文章介紹了Spark SQL的Catalyst的核心運行流程、SqlParser，和Analyzer，本來打算直接寫Optimizer

Spark SQL 運算元例項

相關推薦