Spark 大資料處理最佳實踐

阿新 • • 發佈：2021-07-20

開源大資料社群 & 阿里雲 EMR 系列直播第十一期

主題：Spark 大資料處理最佳實踐

講師：簡鋒，阿里雲 EMR 資料開發平臺負責人

內容框架：

大資料概覽
如何擺脫技術小白
Spark SQL 學習框架
EMR Studio 上的大資料最佳實踐

直播回放：進入連結https://developer.aliyun.com/live/247072

一、大資料概覽

大資料處理 ETL (Data → Data)
大資料分析 BI (Data → Dashboard)
機器學習 AI (Data → Model)

二、如何擺脫技術小白

什麼是技術小白？

只懂表面，不懂本質

比如：只懂得參考別人的 Spark 程式碼，不懂得 Spark 的內在機制，不懂得如何調優 Spark Job

擺脫技術小白的藥方

懂得執行機制
學會配置
學會看 Log

懂得執行機制：Spark SQL Architecture

學會配置：如何配置 Spark App

配置 Driver

• spark.driver.memory

• spark.driver.cores

配置 Executor

• spark.executor.memory

• spark.executor.cores

配置 Runtime

• spark.files

• spark.jars

配置 DAE
…..........

參考網址：https://spark.apache.org/docs/latest/configuration.html

學會看 Log：Spark Log

三、Spark SQL 學習框架

Spark SQL 學習框架( 結合圖形/幾何）

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 執行計劃

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 實踐

EMR Studio 特性：

相容開源元件
支援連線多個叢集
適配多個計算引擎
互動式開發 + 作業排程無縫銜接
適用多種大資料應用場景
計算儲存分離

1. 相容開源元件

EMR Studio 在開源軟體 Apache Zeppelin，Jupyter Notebook, Apache Airflow 的基礎上優化了做了優化和增強。

2. 支援連線多個叢集

一個 EMR Studio 可以連線多個 EMR 計算叢集，您可以很方便地切換計算叢集，提交作業到不同的計算叢集上執行。

3. 適配多個計算引擎

自動適配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多個計算引擎，無需複雜配置，多個計算引擎間協同工作

4. 互動式開發 + 作業排程無縫銜接

Notebook + Airflow : 無縫銜接開發環節和生產排程環節

利用互動式開發模式可以快速驗證作業的正確性.
在 Airflow 裡排程 Notebook 作業，最大程度得保證開發環境和生產環境的一致性，防止由於開發階段和生產階段環境不一致而導致的問題。

5. 適用多種大資料應用場景

大資料處理 ETL
互動式資料分析
機器學習
實時計算

6. 計算儲存分離

所有資料都儲存在 OSS 上，包括：

• 使用者 Notebook 程式碼

• 排程作業 Log

即使叢集銷燬，也可以重建叢集輕鬆恢復資料

EMR Studio Demo 演示：

參考文件：https://help.aliyun.com /document_detail /208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

原文連結

本文為阿里雲原創內容，未經允許不得轉載。

Spark 大資料處理最佳實踐

開源大資料社群 & 阿里雲 EMR 系列直播第十一期主題：Spark 大資料處理最佳實踐

餘老師帶你學習大資料-Spark快速大資料處理第四章第二節Tez環境搭建

Tez環境搭建編譯Tez 由於在Tez-Yarn的官網上並沒有關於hadoop3.1.2對應的Tez-Yarn安裝包，所以我們進行鍼對性的編譯。先檢測Maven是否安裝了。

餘老師帶你學習大資料-Spark快速大資料處理第四章第一節Tez總體介紹

為什麼選擇Tez 為什麼要用Tez 在分散式系統中要儲存海量的資料，因為構建了一個非商務的機器上能夠執行的hdfs分散式儲存空間，而且這個儲存空間是低成本的並且具有良好的擴充套件性。那麼，很多企業都會將海

餘老師帶你學習大資料-Spark快速大資料處理第三章第十一節YARN排程器和實戰編寫

YARN編寫實戰 Yarn排程器配置理想情況下，我們應用對Yarn資源的請求應該立刻得到滿足，但現實情況資源往往是有限的，特別是在一個很繁忙的叢集，一個應用資源的請求經常需要等待一段時間才能的到相應的

餘老師帶你學習大資料-Spark快速大資料處理第三章第十節RM HA配置

RM HA配置檔案詳解 1、啟動resourcemanager的ha。 2、對叢集進行命名。 3、配置resourcemanager的ids，可以定義多個，在本地就定義了兩個rm1和rm2。

從Hadoop到Spark、Flink，大資料處理框架十年激盪發展史

當前這個資料時代，各領域各業務場景時時刻刻都有大量的資料產生，如何理解大資料，對這些資料進行有效的處理成為很多企業和研究機構所面臨的問題。本文將從大資料的基礎特性開始，進而解釋分而治之的處理思想，最後

圖解大資料 | 基於Spark RDD的大資料處理分析

圖解大資料 | Spark Dataframe/SQL大資料處理分析

【Spark研究】用Apache Spark進行大資料處理之入門介紹

什麼是Spark Apache Spark是一個圍繞速度、易用性和複雜分析構建的大資料處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為Apache的開源專案之一。

【Spark研究】用Apache Spark進行大資料處理第一部分：入門介紹

【Spark研究】用Apache Spark進行大資料處理第二部分：Spark SQL

在Apache Spark文章系列的前一篇文章中，我們學習了什麼是Apache Spark框架，以及如何用該框架幫助組織處理大資料處理分析的需求。

帶batch_size的迭代器讀取檔案,解決記憶體不足的大資料處理問題!!!!!!!!!!完美解決

https://github.com/zhangbo2008/perfect_batch_generator_for_pyton 核心程式碼如下: def bylineread(fimename,batchsize=1):

PySpark大資料處理及機器學習Spark2.3深入學習高階

1. 二元分類預測網頁是暫時性的，還是長青的（ephemeral, evergreen）》讀取檔案，建立DataFrame 格式資料

資料模型最佳實踐_資料科學家應瞭解軟體工程最佳實踐

資料模型最佳實踐意見 (Opinion) 介紹 (Introduction) I have been eagerly researching, speaking to friends and testing some new ideas that will contribute to making me a more indispe

知識本體與大資料處理續

2019獨角獸企業重金招聘Python工程師標準>>> 作者：趙丹連結：https://zhuanlan.zhihu.com/p/21496568 來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

圖片載入失敗後CSS樣式處理最佳實踐

1、傳統的圖片異常處理 <img>如果因為網路或者跨域限制等原因無法正常載入，在預設情況下會顯示瀏覽器預設的“裂開”的圖片效果，如果設定了 alt 屬性值，則 alt 屬性對應的內容也會一併顯示。例如：

spark大資料淘寶日誌資料分析demo

package com.imooc.web; import com.imooc.dao.TopNDAO; import com.imooc.domain.TopN; import net.sf.json.JSONArray;

JDBC的批量新增-大資料處理-結果集的元資料-Class反射-JDBC查詢封裝

一、使用JDBC批量新增知識點複習： JDBC的六大步驟（匯入jar包，載入驅動類，獲取連線物件，獲取sql執行器、執行sql與並返回結果，關閉資料庫連線）

Serverless 在大規模資料處理的實踐

作者 | 西流阿里雲技術專家前言當您第一次接觸 Serverless 的時候，有一個不那麼明顯的新使用方式：與傳統的基於伺服器的方法相比，Serverless 服務平臺可以使您的應用快速水平擴充套件，並行處理的工作更加有效。

ES基礎（四十六）Elasticsearch 資料建模最佳實踐

課程demo ###### Cookie Service ##索引資料，dynamic mapping 會不斷加入新增欄位 PUT cookie_service/_doc/1

Spark 大資料處理最佳實踐

開源大資料社群 & 阿里雲 EMR 系列直播 第十一期

一、大資料概覽

二、如何擺脫技術小白

什麼是技術小白？

擺脫技術小白的藥方

懂得執行機制：Spark SQL Architecture

學會配置：如何配置 Spark App

學會看 Log：Spark Log

三、Spark SQL 學習框架

Spark SQL 學習框架( 結合圖形/幾何）

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 執行計劃

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 實踐

EMR Studio 特性：

1. 相容開源元件

2. 支援連線多個叢集

3. 適配多個計算引擎

4. 互動式開發 + 作業排程無縫銜接

5. 適用多種大資料應用場景

6. 計算儲存分離

EMR Studio Demo 演示：

相關推薦

開源大資料社群 & 阿里雲 EMR 系列直播第十一期