Spark與緩存

阿新 • • 發佈：2017-06-06

分布式 kryo 數量級 enc 問題：分布式緩存 context ive 服務

預期成果

1.1 當前問題

當前以圖搜圖應用存在的問題：

當前使用spark RDD方案無法達到數據實時加載（每10分鐘加載一次，雖然可配，但太短可能會有問題）
Spark RDD內存會被分為兩部分，一部分用來緩存數據一部分用來計算，Spark默認配置只有差不多50%的內存用於緩存（也就是說executor配了100G，只有50多G可以被用來做緩存），雖然比例可以進行配置，但增加緩存內存比例後，是否會影響計算性能有待測試。
當前數據全緩存到spark jvm內存中，GC時間較長會導致影響計算性能
當前加載的RDD只有自身context才能使用，無法做到應用間共享
當driver端服務宕掉後，緩存的數據也會丟失

期望能將增量數據加載時間縮小到足夠小達到準實時，或者直接能夠達到實時
職責分明，緩存有分布式緩存做，Spark只負責計算
緩存數據不占用Spark jvm內存，減少GC對計算的影響
加載到內存的數據可以被其他應用使用
Driver端服務宕掉後，緩存數據不會丟失，其他driver段仍可使用
采用新方案對比原方案，性能損耗盡可能小，最好達到無損耗

1.2 預期成果

2 技術選型

根據上述問題和預期成果，期望選擇一款與Spark結合較好的分布式內存緩存計算，從而將緩存工作從spark中抽離出來，讓spark專註於計算。

2.1.1 Apache Ignite

Apache Ignite內存數據組織是高性能的、集成化的以及分布式的內存平臺，他可以實時地在大數據集中執行事務和計算，和傳統的基於磁盤或者閃存的技術相比，性能有數量級的提升。

選擇預研該技術最大的原因為，Ignite實現了一個可共享的Spark RDD，可實現增量數據實時在比對中體現。

2.1.2 Alluxio（原Tachyon）

Alluxio在1.0版本後由原來的Tcahyon更名。Alluxio與Spark結合較好，Spark1.5後增加的緩存方式：OFF_HEAP（堆外緩存）當前只支持tachyon。

不過Alluxio和Spark RDD一樣都不可變，緩存文件一旦寫入就不能修改，且在完成寫入之前緩存數據是無法讀取的，這樣就服務達到增量數據的實時性，但可以實現盡可能縮短增量加載時間來達到準實時性。

3 階段性結論

性能測試采用上述兩種技術三個版本（apache-ignite-fabric-1.5.0.final、alluxio-1.0.1、tachyon-0.7.1-hadoop2.6-build）八種方案:

直接采用Spark RDD緩存，且緩存數據不做序列化
直接采用Spark RDD緩存，緩存數據使用java序列化方式
直接采用Spark RDD緩存，緩存數據使用kryo序列化方式
采用Spark RDD OFF_HEAP模式（即緩存數據到tachyon），緩存數據使用java序列化方式
采用Spark RDD OFF_HEAP模式（即緩存數據到tachyon），緩存數據使用kryo序列化方式
使用tachyon緩存數據（調用saveAsObjectFile，直接將數據序列化成文件寫到tachyon中），saveAsObjectFile使用java序列化方式
使用Alluxio緩存數據（調用saveAsObjectFile，直接將數據序列化成文件寫到Alluxio中），saveAsObjectFile使用java序列化方式
使用ignite緩存數據，使用IgniteRDD進行統計

下面為三臺256G內存集群，58727000條數據，Spark分配36核，測試結果如下：

緩存方式	內存配置	是否序列化	序列化實現	檢索耗時(s)	內存空間(GB)
Spark RDD	executor:150GB*3	否		11.527	112.8
Spark RDD	executor:150GB*3	是	java	20.09	56.4
Spark RDD	executor:150GB*3	是	kryo	16.275	51.8
Spark RDD + tachyon	executor:20GB3 tachyon:100GB3	是	java	21.771	51.56
Spark RDD + tachyon	executor:20GB3 tachyon:100GB3	是	kryo	17.772	51.83
tachyon	executor:20GB3 tachyon:100GB3	是	java	32.719	53.03
Alluxio	executor:20GB3 alluxio:100GB3	是	java	26.988	53.03
ignite	executor:20GB3 ignite:10GB3(數據保存在堆外，不使用jvm內存)	是	java	333.228

由上表分析如下：

檢索耗時最短為方案一，直接緩存到spark jvm中且不做序列化，但該方案占用內存也較多(目前是其他方案的兩倍)，不過當前以圖搜圖框架中數據結構采用map，所以較占內存
方案一、二、三對比，采用序列化會有性能損耗，kryo序列化耗時是java序列化的1/2，與之前測試基本一致，采用kryo序列化112GB數據耗時4-5秒
對比方案二、方案四以及方案三、方案五，從tachyon拉數據到spark進行計算耗時為1秒左右，但由於存儲到tachyon必須序列化，所以得加上序列化的耗時，最少的性能損耗也差不多5-6秒
直接調用saveAsObjectFile保存數據到tachyon或者Alluxio，性能損耗較大，分別為22秒和14秒，初步估計性能損耗由於：（1）saveAsObjectFile采用java序列化方式，性能損耗將近9秒；（2）saveAsObjectFile內部實現使用的是hadoop api，tachyon能夠兼容這些api，但可能有部分性能損耗;（3）spark可能對tachyon存儲做過一定優化
由表格可以看出ignite結合spark性能很差，估計原因可能為：（1）可能修改某些配置後可以優化性能，但iginte資料非常少，特別是跟spark結合這塊，基本沒有什麽資料；（2）ignite本身不單單包含存儲功能，還有檢索、計算等功能，所以它與spark本身也存在競爭關系

結論如下：

ignite如需優化性能需要深入源碼，且沒有對比數據，具體最後能到什麽程度無法預估，且當前基本沒有什麽已知公司使用該技術與Spark結合

Alluxio（Tachyon）性能優化需要看Spark緩存代碼，但是該方法最終能夠達到的性能指標基本能夠預估（較現有方案有5-6秒的損耗，但內存消耗可能會有所減少）

Spark與緩存

分布式 kryo 數量級 enc 問題：分布式緩存 context ive 服務預期成果 1.1 當前問題當前以圖搜圖應用存在的問題：當前使用spark RDD方案無法達到數據實時加載（每10分鐘加載一次，雖然可配，但太短可能會有問題） Spark

劍指架構師系列-InnoDB存儲引擎、Spring事務與緩存

之前 ner 不提交變化 def dto suspend 自己實現更改事務與鎖是不同的。事務具有ACID屬性：原子性:持久性：由redo log重做日誌來保證事務的原子性和持久性,一致性：undo log用來保證事務的一致性隔離性:一個事務在操作過程中看到了其他

redis系列之數據庫與緩存數據一致性解決方案

查詢緩存 src dev 信息一次 ram ren red getc redis系列之數據庫與緩存數據一致性解決方案數據庫與緩存讀寫模式策略寫完數據庫後是否需要馬上更新緩存還是直接刪除緩存？（1）、如果寫數據庫的值與更新到緩存值是一樣的，不需要經過任何的計算，可以馬

【轉載】HTTP 緩存的四種風味與緩存策略

href 校驗成本字段值包括避免 valid 技術 target 原文地址：https://segmentfault.com/a/1190000006689795 HTTP Cache 通過網絡獲取內容既緩慢，成本又高：大的響應需要在客戶端和服務器之間進行多次往返通

Servlet與緩存-學習筆記

Servlet與緩存-學習筆記對於瀏覽器的刷新而言，當瀏覽器緩存中有資源，也會×××端要資源，只有在回車訪問情況下，才找緩存 2)可以通過重寫getLastModified()方法來阻止每次刷新都訪問服務端，以減輕服務端的壓力 3) 如果要實現一種高級功能，即客戶端請求動態web資源時，動態web資源發現發給

spring boot（四）事務與緩存

autowire manager 控制 nsa color 實體 value ron save spring boot事務機制 spring支持聲明式事務，用@Tracsational註解在方法上表明該方法需要事務支持。被註解的方法在被調用時開啟一個新的事務，當方法無異常結

springboot與緩存

方法 edi 理論存在超過 ehcache 緩存技術讀取有效期 1.理論介紹 Java Caching定義了5個核心接口，分別是CachingProvider, CacheManager, Cache, Entry 和 Expiry。 CachingProvide

drf框架之跨域問題的解決與緩存問題

content com 超時 pda cti header event port ade 什麽是跨域問題呢: 1. 跨域問題: CORS 跨域資源共享: 有簡單請求和非簡單請求簡單請求: 只要符合如下兩條,就是簡單請求,否

私有緩存與公有緩存

img logs log 分享 blog ima 私有 png 緩存私有緩存與公有緩存

緩存機制與局部性原理

緩存命中存儲讀寫依賴速度網絡表現二維數組文件 http://www.cnblogs.com/jqctop1/p/4714116.html 1. 局部性原理局部性原理是指計算機在執行某個程序時，傾向於使用最近使用的數據。局部性原理有兩種表現形式：時間局部

分布式緩存技術redis學習系列（三）——redis高級應用（主從、事務與鎖、持久化）

master ica not ood www working can 出了 owin 上文《詳細講解redis數據結構（內存模型）以及常用命令》介紹了redis的數據類型以及常用命令，本文我們來學習下redis的一些高級特性。回到頂部安全性設置設置客戶端操作秘密

myBatis-一級緩存與二級緩存

沒有速度 myba 狀態將不 order tor mit 修改 1.1 什麽是查詢緩存 mybatis提供查詢緩存，用於減輕數據壓力，提高數據庫性能。 mybaits提供一級緩存，和二級緩存。一級緩存是SqlSession級別的緩存。在操作數據庫時需要構造

http緩存與離線緩存

tex image 臨時文件 error 未能 llb ast vc6 緩存一、http協議實現緩存 1. 緩存頭部通用緩存、條件緩存、緩存控制三大類頭部名稱說明請求/響應通用緩存頭部控制客戶端是否向服務器發送請求或者是服務端

《逐夢旅程 WINDOWS遊戲編程之從零開始》筆記8——載入三維模型&Alpha混合技術&深度測試與Z緩存

one 平面 rep none pes x文件 mas 參數函數第17章三維遊戲模型的載入主要是如何從3ds max中導出.X文件，以及如何從X文件加載三維模型到DirextX遊戲程序裏。因為復雜的3D物體，要用代碼去實現，那太反人類了，所以我們需要一些建模軟件。

http緩存與cdn相關技術

現在 pri 3-9 網絡服務超時有時文件技術分享位置檢索一 http緩存 1.1緩存的分類： http中具有緩存功能的是：1、瀏覽器緩存、 2、緩存代理服務器。 1.2 什麽是緩存： http緩存的是指:當Web請求抵達緩存時，如果本地有“

緩存系列之一：buffer、cache與瀏覽器緩存

網站按鈕強制根據 3.4 發生 htm 多少 pan 緩存系列之一：buffer、cache與瀏覽器緩存一：緩存是為了調節速度不一致的兩個或多個不同的物質的速度，在中間對速度較快的一方起到一個加速訪問速度較慢的一方的作用，比如CPU的一級、二級緩存是保存了CPU最近

緩存系列之二：CDN與其他層面緩存

級別 spl pecl apache 分布式緩存 -o 真實ip har 分享緩存系列之二：CDN與其他層面緩存一：內容分發網絡（Content Delivery Network），通過將服務內容分發至全網加速節點，利用全球調度系統使用戶能夠就近獲取，有效降低訪問延遲，

C語言編程之--scanf()函數與getchar()函數搭配來理解C程序的輸入緩存(buffer)

使用 ges border urn alt color 數值 amp tps 博主最近在學習C語言編程，在書中的代碼示例中出現了下面的代碼段： #include<stdio.h> int main() { char a[5]; int i; printf("

ExoPlayer Talk 01 緩存策略分析與優化

sca google mes efi allocator method policy 類型 let 操作系統:Windows8.1 顯卡:Nivida GTX965M 開發工具：Android studio 2.3.3 | ExoPlayer r2.5.1 使用 ExoP

RDD的緩存，依賴，spark提交任務流程

持久化存儲技術分享 alt 重要 depend 任務 cache 但是 1.RDD的緩存 Spark速度非常快的原因之一，就是在不同操作中可以在內存中持久化或緩存個數據集。當持久化某個RDD後，每一個節點都將把計算的分片結果保存在內存中，並在對此RDD或衍生出的RDD進

Spark與緩存

預期成果

1.1 當前問題

1.2 預期成果

2 技術選型

2.1.1 Apache Ignite

2.1.2 Alluxio（原Tachyon）

3 階段性結論

相關推薦