Spark專案實戰-實際專案中常見的優化點-使用foreachPartition優化寫資料庫效能

阿新 • • 發佈：2018-12-11

首先，我們看一下foreach的寫原理：

1、foreach的效能缺陷在哪裡？

（1）首先對於每條資料都要單獨去呼叫一次function，task為每個資料都要去執行一次function函式。如果100萬條資料（一個partition），呼叫100萬次，效能比較差。

（2）另外一個非常非常重要的一點，如果每個資料你都去建立一個數據庫連線的話，那麼你就得建立100萬次資料庫連線。我們都知道資料庫連線的建立和銷燬，都是非常非常消耗效能的。雖然我們可以用資料庫連線池，只是建立了固定數量的資料庫連線。但還是得多次通過資料庫連線，往資料庫（MySQL）傳送一條SQL語句，然後MySQL需要去執行這條SQL語句。如果有100萬條資料，那麼就是100萬次傳送SQL語句。

基於以上兩點（資料庫連線，多次傳送SQL語句），都是非常消耗效能的。那麼foreachPartition的寫原理是怎樣的呢？我們往下看：

2、用了foreachPartition運算元

（1）對於我們寫的function函式，就呼叫一次，一次傳入一個partition所有的資料。

（2）建立或者獲取一個數據庫連線就可以。

（3）只要向資料庫傳送一次SQL語句和多組引數即可。

3、foreachPartition的缺點

在實際生產環境中基本上都是使用foreachPartition操作，但是有個問題，跟mapPartitions操作一樣，如果一個partition的數量真的特別特別大，比如真的是100萬，那基本上就不太靠譜了。一下子進來，很有可能會發生OOM記憶體溢位的問題。

Spark專案實戰-實際專案中常見的優化點-使用foreachPartition優化寫資料庫效能

Spark專案實戰-實際專案中常見的優化點-分配更多的資源和調節並行度

Spark專案實戰-實際專案中常見的優化點-廣播大變數

Spark專案實戰-實際專案中常見的優化點-使用foreachPartition優化寫資料庫效能

Spark專案實戰-實際專案中常見的優化點-filter過後使用coalesce減少分割槽數量

【專案實戰】---SQLServer中case when的簡單用法

python專案實戰:獲取電腦中的磁碟資訊方法

【無私分享：ASP.NET CORE 專案實戰（第四章）】Code First 建立資料庫和資料表

機器學習中常見的幾種優化方法

python專案實戰:處理圖片實現畫素點的訪問

軌跡系列13——多軌跡展示在實際專案中的落地和優化

常見演算法在實際專案中的應用

【厚積薄發系列】C++專案總結7—實際專案中記憶體洩漏問題排查及常見情況總結

Spark效能調優之——在實際專案中重構RDD架構以及RDD持久化

【SSH網上商城專案實戰24】Struts2中如何處理多個Model請求

[專案實踐] 在專案實戰中提升程式碼效率的的一次應用實踐-----使用列表解析式輸出當前android裝置的CPU核數

JAVA架構師大型分散式高併發電商專案實戰，效能優化，叢集，億級高併發，web安全，快取架構實戰

38套大資料，雲端計算，架構，資料分析師，Hadoop，Spark，Storm，Kafka，人工智慧，機器學習，深度學習，專案實戰視訊教程

mysql資料庫優化（四）-專案實戰

安卓專案實戰之Activity啟動過程中動態獲取元件寬高的3種方式

.net 一種新的傳參方式作為傳參的參考，很可能在實際專案中使用

Spark專案實戰-實際專案中常見的優化點-使用foreachPartition優化寫資料庫效能

相關推薦