Spark SQL性能優化

阿新 • • 發佈：2018-03-08

Spark SQL 優化

==> 在內存中緩存數據

---> 性能調優主要是將數據放入內存中操作

---> 使用例子：

// 從 Oracle 數據庫中讀取數據，生成 DataFrame
val oracleDF = spark.read.format("jdbc")
        .option("url", "jdbc:oracle:thin:@192.168.10.100:1521/orcl.example.com")
        .option("dbtable", "scott.emp")
        .option("user", "scott")
        .option("password", "tiger").load
        
// 將 DataFrame 註冊成表
oracleDF.registerTempTable("emp")

// 執行查詢，並通過 Web Console 監控執行的時間
spark.sql("select * from emp").show

// 將表進行緩存，並查詢兩次，通過 Web Console 監控執行的時間
spark.sqlContext.cacheTable("emp")

// 清空緩存
spark.sqlContext.cacheTable("emp")
spark.sqlContext.clearCache

==> 優化相關參數

---> spark.sql.inMemoryColumnarStorage.compressed

---- 默認值： true

---- Spark SQL 將會基於統計信息自動地為每一列選擇一種壓縮編碼方式

---> spark.sql.inMemoryColumnarStorage.batchSize

---- 默認值： 10000

---- 緩存批處理大小，較大的批處理可以提高內存利用率和壓縮率，但同時也會帶來 OOM(Out Of Memory)的風險

---> spark.sql.files.maxPartitionBytes

---- 默認值： 128M

---- 讀取文件時單個分區可容納的最大字節數

---> spark.sql.files.openCostinBytes

---- 默認值： 4M

---- 打開文件的估算成本，按照同一時間能夠掃描的字節數來測量，當往一個分區寫入多個文件時會使用，高估相對較好，這樣小文件分區將會比大文件分區速度更快（優先調度）

---> spark.sql.autoBroadcastJoinThreshold

---- 默認值：10M

---- 用於配置一個表在執行 join 操作時能夠廣播給所有 worker 節點的最大字節大小，通地將這個值設置為-1可以禁用廣播

，

---- 註意：當前數據統計僅支持已經運行了 ANALYZE TABLE <tablename> COMPUTE STATISTICS noscan 命令的 Hive Metastore 表

---> spark.sql.shuffle.partitions

---- 默認值： 200

---- 用於配置 join 或聚合操作混洗（shuffle）數據時使用的分區數

Spark SQL性能優化

Spark SQL 優化==> 在內存中緩存數據 ---> 性能調優主要是將數據放入內存中操作 ---> 使用例子：// 從 Oracle 數據庫中讀取數據，生成 DataFrame val oracleDF = spark.read.format("jdbc"

Spark SQL 性能優化再進一步：CBO 基於代價的優化

desc aso hash join 實現 true 原因表數據 orm 數據集摘要：本文將介紹 CBO，它充分考慮了數據本身的特點（如大小、分布）以及操作算子的特點（中間結果集的分布及大小）及代價，從而更好的選擇執行代價最小的物理執行計劃，即 SparkPlan。

Oracle SQL性能優化技巧大總結

從右到左 art ret http 減少檢索前綴 deb 結果（1）選擇最有效率的表名順序(只在基於規則的優化器中有效)： Oracle的解析器按照從右到左的順序處理FROM子句中的表名，FROM子句中寫在最後的表(基礎表driving table)將被最先處理，在

SQL Server SQL性能優化之--數據庫在“簡單”參數化模式下，自動參數化SQL帶來的問題

參考 itl stat 數據行 img tro while 第一次 line 數據庫參數化的模式數據庫的參數化有兩種方式，簡單（simple）和強制（forced），默認的參數化默認是“簡單”，簡單模式下，如果每次發過來的SQL，除非完全一樣

Oracle SQL 性能優化技巧

database 也會完成 global 指定多個 llb 狀況 choose Select語句完整的執行順序： SQL Select語句完整的執行順序： 1、 from子句組裝來自不同數據源的數據； 2、where子句基於指定的條件對記錄行進行篩選； 3、grou

SQL性能優化

重復 category add bsp set 環境分號特殊建立 1.查詢的模糊匹配盡量避免在一個復雜查詢裏面使用 LIKE ‘%parm1%‘—— 紅色標識位置的百分號會導致相關列的索引無法使用，最好不要用. 解決辦法: 其實只需要對

總結幾點sql 性能優化

算術運算 data 進行基於 rda tab 我會 htm 表達一.表設計階段： 1.主鍵的使用 a.業務日誌表、安全審計表采用自增長； b.自定義編號用於業務流程類表，根據一定的編號規則； c.int型主鍵用於基礎數據表； 2.邏輯刪除

Oracle SQL性能優化

driving 定位 wid 執行兩次 tno 交叉表 lec 建立 clear （1）選擇最有效率的表名順序(只在基於規則的優化器中有效)： ORACLE的解析器按照從右到左的順序處理FROM子句中的表名，FROM子句中寫在最後的表(基礎表 driving

Oracle12c中SQL性能優化（SQL TUNING）新特性之自動重優化（automatic reoptimization）

num sysdba number 並行執行 loop pdb state 周期性 align Oracle12c中的自適應查詢優化有一系列不同特點組成。像自適應計劃（AdaptivePlans）功能可以在運行時修改執行計劃，但並不允許計劃中連接順序的改變。自動重優化

Oracle SQL性能優化 ------- 學會了很多新姿勢

build insert url 刪除命令才會 v$sql 一次 PE class Oracle SQL性能優化（1）選擇最有效率的表名順序(只在基於規則的優化器中有效)： ORACLE的解析器按照從右到左的順序處理FROM子句中的表名，FROM子句中寫在最

Java教程之SQL性能優化提升

其中今天技術 inf 中間寫法子查詢條件數據 Ø 簡單的性能優化　　Sql的性能優化是數據庫工程師在實際工作中必須面對的重要課題之一。對於某些數據庫工程師來說，它幾乎唯一的命題。實際上，像WEB服務這樣需要快速響應的應用場景中，SQL的性能直接

sql性能優化（摘自網絡）

而不是頻繁距離 ssl 數據庫名協議時間就會算術索引，索引！！！為經常查詢的字段建索引！！但也不能過多地建索引。insert和delete等改變表記錄的操作會導致索引重排，增加數據庫負擔。優化目標 1.減少 IO 次數 IO永遠是數據庫最容易瓶

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

Spark性能優化指南——高級篇

stat 參數調優 5% 每一個寫性能 nes fix 單獨 png Spark性能優化指南——高級篇 [TOC] 前言繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後，本文作為《Spark性能優化指南》的高級篇，將深入分析數據傾斜調

SQL Server 查詢性能優化——創建索引原則（二）

技術分享 dex ble 銷售得到 with 9.png ron 條件三：索引的建立原則　　一般來說，建立索引要看數據使用的場景，換句話來說哪些訪問數據的SQL語句是常用的，而這些語句是否因為缺少索引（也有可能是索引過多）變的效率低下。但絕不是所有的SQL語句都要建

SQL優化（SQL TUNING）之10分鐘完畢億級數據量性能優化（SQL調優）

font 一個進一步結束語句 pop 技術分享處理 fill 前幾天。一個用戶研發QQ找我，例如以下：自由的海豚。 16:12:01 島主，我的一條SQL查不出來結果，能幫我看看不？蘭花島主 16:12:10 多久不出結果？自由的海豚 16:12:17

sql server 性能優化和日常管理維護筆記

sel .text reads where 導入語句 data offset file 1.將sqlserver Profile收集到的trace 比如 duration >5000ms 的trace 文件導入到sample 表分析或者用查詢優化器顧問分析

MySQL批量SQL插入各種性能優化

排列 max 資源提交 ddc 100萬來看 ont 成本對於一些數據量較大的系統。數據庫面臨的問題除了查詢效率低下，還有就是數據入庫時間長。特別像報表系統，每天花費在數據導入上的時間可能會長達幾個小時或十幾個小時之久。因此。優化數據庫插入性能是非

MySQL批量SQL插入性能優化詳解

inno user val 事務優化好的維護排列測試結果對於一些數據量較大的系統，數據庫面臨的問題除了查詢效率低下，還有就是數據入庫時間長。特別像報表系統，每天花費在數據導入上的時間可能會長達幾個小時或十幾個小時之久。因此，優化數據庫插入性能是很有意義的。經過對

【SQL server初級】數據庫性能優化三：程序操作優化

地球解釋 spa 記錄 employ it168 等於 bsp 實現　　數據庫優化包含以下三部分，數據庫自身的優化，數據庫表優化，程序操作優化.此文為第三部分　　數據庫性能優化三：程序操作優化概述：程序訪問優化也可以認為是訪問SQL語句的優化，一個好的SQL語句是

Spark SQL性能優化

相關推薦