【原創】大叔經驗分享（39）spark cache unpersist級聯操作

阿新 • • 發佈：2019-03-13

mode this 兩個間接 ant 引入 data sel validate

問題：spark中如果有兩個DataFrame（或者DataSet），DataFrameA依賴DataFrameB，並且兩個DataFrame都進行了cache，將DataFrameB unpersist之後，DataFrameA的cache也會失效，官方解釋如下：

When invalidating a cache, we invalid other caches dependent on this cache to ensure cached data is up to date. For example, when the underlying table has been modified or the table has been dropped itself, all caches that use this table should be invalidated or refreshed.

However, in other cases, like when user simply want to drop a cache to free up memory, we do not need to invalidate dependent caches since no underlying data has been changed. For this reason, we would like to introduce a new cache invalidation mode: the non-cascading cache invalidation.

之前默認的模式為regular mode，這種模式下為了保證被cache數據是最新的（沒有過期），會對cache的unpersist進行級聯操作，即清空所有依賴（包括間接依賴）該cache的其他cache；

從spark2.4開始引入了一個新的模式：non-cascading mode，這個模式下不會對cache的unpersist進行級聯操作；

DataFrame/DataSet的cache操作默認用的level是MEMORY_AND_DISK，除非手工指定MEMORY，並且確認內存足夠，否則unpersist之前的cache看起來沒有必要；

參考：
https://issues.apache.org/jira/browse/SPARK-21478
https://issues.apache.org/jira/browse/SPARK-24596
https://issues.apache.org/jira/browse/SPARK-21579

【原創】大叔經驗分享（39）spark cache unpersist級聯操作

mode this 兩個間接 ant 引入 data sel validate 問題：spark中如果有兩個DataFrame（或者DataSet），DataFrameA依賴DataFrameB，並且兩個DataFrame都進行了cache，將DataFrameB unp

【原創】大叔經驗分享（23）hive metastore的幾種部署方式

tps rac driver 所有 ava onf script 1.2 uri hive及其他組件（比如spark、impala等）都會依賴hive metastore，依賴的配置文件位於hive-site.xml hive metastore重要配置 hive.met

【原創】大叔經驗分享（30）CM開啟kerberos

conf ref 密碼 bsp 配置過程 local mage https 原創 kerberos安裝詳見：https://www.cnblogs.com/barneywill/p/10394164.html 一為CM創建用戶 # kadmin.local -q

【原創】大叔經驗分享（38）beeline連接hiveserver2報錯impersonate

anon hdfs sts 經驗分享 property could could not val sta beeline連接hiveserver2報錯 Error: Could not open client transport with JDBC Uri: jdbc:hi

【原創】大叔經驗分享（46）用戶提交任務到yarn報錯

nim use ima tps 原創 ask 圖片 bmi cfg 用戶提交任務到yarn時有可能遇到下面的錯誤： Requested user anything is not whitelisted and has id 980,which is below the

【原創】問題定位分享（17）spark查orc格式資料偶爾報錯NullPointerException

spark查orc格式的資料有時會報這個錯 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputFo

【原創】問題定位分享（21）spark執行insert overwrite非常慢，比hive還要慢

最近把一些sql執行從hive改到spark，發現執行更慢，sql主要是一些insert overwrite操作，從執行計劃看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from

【原創】問題定位分享（15）Context namespace element 'component-scan' and its parser class [org.springframework.context.annotation.ComponentScanBeanDefinit

今天嘗試執行一個古老的工程，配置好之後編譯通過，結果執行時報錯： org.springframework.beans.factory.BeanDefinitionStoreException: Unexpected exception parsing XML document from class p

【原創】算法分享（4）Cardinality Estimate 基數計數概率算法

設置 value 可能 alt 第一個公司 cat linear ica 讀過《編程珠璣》（<Programming Pearls>）的人應該還對開篇的Case記憶猶新，大概的場景是：作者的一位在電話公司工作的朋友想要統計一段時間內不同的電話號碼的個數，電話

【原創】算法分享（7）最小二乘法

方法最小值幾何 adc 直線方程 dstat 技術分享 ecb image Ordinary Least Square 最小二乘法提到最小二乘法要先提到擬合，擬合Fitting是數值分析的基礎工具之一，在二維平面上分為直線擬合和曲線擬合，直線擬合找到一條直線盡可能穿過

【原創】經驗分享（15）spark sql limit實現原理

之前討論過hive中limit的實現，詳見 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的實現，首先看執行計劃： spark-sql> explain select * from test1 limit

【原創】經驗分享（20）spark job之間會停頓幾分鐘

今天遇到一個問題，spark應用中在一個迴圈裡執行sql，每個sql都會向一張表寫入資料，比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了執行sql沒有其他邏輯，每個sq

【原創】淺談webview（一）——驚鴻一瞥

版本開發 spa 占用混合原創大量功能性內存泄漏眾所周知，APP開發過程中經常會通過webview實現HTML5(H5)的渲染，實現H5和Native的混合開發(Hybrid Development)。Hybrid Development可以加速

【原創】Hibernate自動生成（2）

成了 OS class 項目重構 alt index AS url 改名本實戰是博主初次學習Java，分析WCP源碼時，學習HibernateTools部分的實戰，由於初次接觸，難免錯誤，僅供參考，希望批評指正。開發環境： Eclipse Version: Photo

【原創】VBA學習筆記（2）--例項，VBA刪除表中的空行

Sub 巨集1迴圈內刪列() '資料不規範，有的空行是4，有的是6，有的是1就不好處理了 For i = 15 To 100 Step 2 Rows(i).Delete Shift:=xlUp &nb

【原創】python學習筆記（10）--《笨辦法學python》字串處理

字串基本操作（1）字串+字串（2）字串*數字（3）字串+str（其他） # -*- coding:utf-8 -*- print ("test1") name1="alice" name2="bob" name_new=name1+name2 print

【原創】pygame學習筆記（4）----一個打飛機遊戲

根據資料學習，程式碼是在資料的基礎上，重新打的，有部分修改。轉載資料來源：-will https://www.cnblogs.com/wuzhanpeng/p/4261015.html http://eyehere.net/2011/python-pygame-n

【原創】pygame學習筆記（3）--triviagame答題遊戲

一容易出錯的地方 def _init_(self,name,score) 要記住， __init__ 前後都是兩個下劃線，而不只是1個下劃線二程式碼測試顯示效果正常了，可以玩了現在題目會迴圈玩 # -*- coding:utf

【原創】pygame學習筆記（2）----pie遊戲（需優化）

測試程式碼情況（1）做到了弧形可以按出來（2）數字的顯示正確（3）出的一些低階錯誤 temp:\\pygame2.txt 這樣的錯誤， temp\\pygame2.txt 導致這樣的錯誤，

【原創】pygame學習筆記（1）----基本的線，矩形，圓形，弧形繪製

PYgame的內容（1）這個module很有意思（2）書本至少來源於《Python遊戲程式設計入門》（3）官方權威說明：https://www.pygame.org/docs/ 下面的嘗試把各種圖形在一個程式裡繪製注意點：（1）特別注意，比如引

【原創】大叔經驗分享（39）spark cache unpersist級聯操作

相關推薦