Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比
1 Spark 產生的背景
1.1 MapReduce 的侷限性
- 程式碼繁瑣
- 只能夠支援map 和 reduce 方法;
- 執行效率低;
- 不適合多次迭代、互動式、流式的處理;
1.2 框架多樣化
- 批處理(離線):MapReduce,Hive,Pig
- 流式處理(實時):Storm,JStorm,
- 互動式計算:Impala
1.3 Hadoop 生態系統
1.4 Spark 生態系統(BDAS)
BDAS : Berkeley Data Analytics Stack
相關推薦
Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比
1 Spark 產生的背景 1.1 MapReduce 的侷限性 程式碼繁瑣 只能夠支援map 和 reduce 方法; 執行效率低; 不適合多次迭代、互動式、流式的處理; 1.2 框架多樣化 批處理(離線):MapReduce,H
Spark SQL 筆記(19)——spark SQL 總結(2) DataFrame VS SQL
1 DataFrame DataFrame = RDD + Schema DataFrame is just a type alias for Dataset of Row DataFrame ov
Spark SQL 筆記(4)——Spark SQL 介紹
1 Spark SQL 背景介紹 1.1 Hive 介紹 類似 sql 的 Hive QL 語言, sql -> mapreduce 改進: hive on tez,hive on spark, hive on mapreduce 1.2 Spark
Spark SQL 筆記(3)——Spark 環境搭建
1 local 模式 直接執行即可 2 Standalone 模式 和 Hadoop/HDFS 的架構類似 /home/hadoop/apps/spark-2.1.3-bin-2.6.0-cdh5.7.0/conf 2.1 spark-env.sh SPARK_MA
Spark SQL 筆記(16)—— Spark on YARN
1 Spark 的4種執行模式 不管使用壽命模式,Spark 應用程式的程式碼是不變的,只需要在提交的時候通過 --master引數來指定 Local,開發時使用 Standalone,Spark自帶的,如果一個叢集是 Standalone ,那麼就需要在多臺
Spark SQL 筆記(18)——spark SQL 總結(1)
1 Spark SQl 使用場景 Ad-hoc querying of data in files Live SQL analytics over streaming data ETL capabilities alongside familiar SQL I
Spark SQL系列------2. Spark SQL Aggregate操作的實現
在Spark 1.6上,TungstenAggregateIterator實現了一個分割槽的Iterator。在實際執行的時候分2中情況: 1.要Aggregate的分割槽資料並不是特別大,在記憶體中就可以實現Aggregate了 2.要Aggregate的分割槽資料比較
Spark SQL 筆記(11)——實戰網站日誌分析(2)統計結果入庫
1 統計結果入庫 使用 DataFrame API 完成統計分析 使用 SQL API 完成統計分析 將結果寫入 MySQL 資料庫 1.1 調優點 分割槽欄位的資料型別的調整 https://
Spark SQL筆記整理(三):加載保存功能與Spark SQL函數
code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能 數據加載(json文件、jdbc)與保存(json、jdbc) 測試代碼如下: package cn.xpleaf.bigdata.spark.scala.sql.p1
Spark SQL筆記整理(二):DataFrame編程模型與操作案例
代碼 最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊,主要用於進行結構化數據的處理。它提供的最核心的編程抽象,就是Data
Spark SQL 筆記(5)—— Hive 到 Spark SQL(1)
1 SQLContext 1.1 Spark1.x 中Spark SQL 的入口點:SQLContext 參考連結 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlc
Spark SQL 筆記(1)—— Hive
1 大資料入門 學習 Hadoop ,Hive 的使用 學習 Spark DataFrame 和 DataSet 在 Spark 框架中的核心地位 2 Hive 2.1 hive 產生的背景 MapReduce 程式設計的不便性;
spark複習筆記(2)
之前工作的時候經常用,隔了段時間,現在學校要用學的東西也忘了,翻翻書謝謝部落格吧。 1.什麼是spark? Spark是一種快速、通用、可擴充套件的大資料分析引擎,2009年誕生於加州大學伯克利分校AMPLab,2010年開源,2013年6月成為Apache孵化專案,2014年2月成為Apac
Spark學習筆記(一) Ubuntu安裝JDK和ssh
1. Hadoop的必要軟體環境 Java開發環境JDK ssh(安全外殼協議) 1.1 Ubuntu下安裝JDK 系統環境:ubuntu-18.04.1 JDK版本:1.8 1.1.1 從oracle官方下載jdk的包到本機
Spark SQL 筆記(7)—— DataFrame API操作案例
1 測試資料 stu.txt 1|Anaa|111111|[email protected] 2|Bob|22222|[email protected] 3|Candy|333333
Spark SQL 筆記(10)——實戰網站日誌分析(1)
1 使用者行為日誌介紹 1.1 行為日誌生成方法 Nginx Ajax 1.2 日誌內容 訪問的系統屬性:作業系統、瀏覽器 訪問特徵:點選的 url、從哪個url 跳轉過來的(referer)、頁
Spark SQL 筆記(15)——實戰網站日誌分析(5)資料視覺化
1 常見的視覺化框架 echarts highcharts d3.js HUE Zeppelin 2 建立 Web 專案 下載Echarts的檔案放到此目錄 http://echarts.bai
Spark SQL 筆記(17)—— 專案效能調優
1 叢集優化 儲存格式的選擇 ,https://www.infoq.cn/article/bigdata-store-choose 壓縮格式的選擇,https://www.ibm.com/develo
大資料IMF傳奇行動絕密課程第64課:Spark SQL下Parquet的資料切分和壓縮內幕詳解
Spark SQL下Parquet的資料切分和壓縮內幕詳解 1、Spark SQL下的Parquet資料切分 2、Spark SQL下的Parquet資料壓縮 parquetBlocksize總體上講是壓縮後的大小 private static fina
Spark學習筆記:Spark Streaming與Spark SQL協同工作
Spark Streaming與Spark SQL協同工作 Spark Streaming可以和Spark Core,Spark SQL整合在一起使用,這也是它最強大的一個地方。 例項:實時統計搜尋次數大於3次的搜尋詞 package StreamingDemo i