每次進步一點點——spark中cache和persist的區別

阿新 • • 發佈：2019-01-06

昨天面試被問到了cache和persist區別，當時只記得是其中一個呼叫了另一個，但沒有回答出二者的不同，所以回來後重新看了原始碼，算是弄清楚它們的區別了。

cache和persist都是用於將一個RDD進行快取的，這樣在之後使用的過程中就不需要重新計算了，可以大大節省程式執行時間。

cache和persist的區別

基於Spark 1.4.1 的原始碼，可以看到

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

說明是cache()呼叫了persist(), 想要知道二者的不同還需要看一下persist函式：

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

可以看到persist()內部呼叫了persist(StorageLevel.MEMORY_ONLY)，繼續深入：

/**
 * Set this RDD's storage level to persist its values across operations after the first time
 * it is computed. This can only be used to assign a new storage level if the RDD does not
 * have a storage level set yet..
 */
def persist(newLevel: StorageLevel): this.type = {
  // TODO: Handle changes of StorageLevel
  if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {
    throw new UnsupportedOperationException(
      "Cannot change storage level of an RDD after it was already assigned a level")
  }
  sc.persistRDD(this)
  // Register the RDD with the ContextCleaner for automatic GC-based cleanup
  sc.cleaner.foreach(_.registerRDDForCleanup(this))
  storageLevel = newLevel
  this
}

可以看出來persist有一個 StorageLevel 型別的引數，這個表示的是RDD的快取級別。

至此便可得出cache和persist的區別了：cache只有一個預設的快取級別MEMORY_ONLY ，而persist可以根據情況設定其它的快取級別。

RDD的快取級別

順便看一下RDD都有哪些快取級別，檢視 StorageLevel 類的原始碼：

object StorageLevel {
  val NONE = new StorageLevel(false, false, false, false)
  val DISK_ONLY = new StorageLevel(true, false, false, false)
  val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
  val MEMORY_ONLY = new StorageLevel(false, true, false, true)
  val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
  val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
  val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
  val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
  val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
  val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
  val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
  val OFF_HEAP = new StorageLevel(false, false, true, false)
  ......
}

可以看到這裡列出了12種快取級別，但這些有什麼區別呢？可以看到每個快取級別後面都跟了一個StorageLevel的建構函式，裡面包含了4個或5個引數，如下

val MEMORY_ONLY = new StorageLevel(false, true, false, true)

檢視其建構函式

class StorageLevel private(
    private var _useDisk: Boolean,
    private var _useMemory: Boolean,
    private var _useOffHeap: Boolean,
    private var _deserialized: Boolean,
    private var _replication: Int = 1)
  extends Externalizable {
  ......
  def useDisk: Boolean = _useDisk
  def useMemory: Boolean = _useMemory
  def useOffHeap: Boolean = _useOffHeap
  def deserialized: Boolean = _deserialized
  def replication: Int = _replication
  ......
}

可以看到StorageLevel類的主構造器包含了5個引數：

useDisk：使用硬碟（外存）
useMemory：使用記憶體
useOffHeap：使用堆外記憶體，這是Java虛擬機器裡面的概念，堆外記憶體意味著把記憶體物件分配在Java虛擬機器的堆以外的記憶體，這些記憶體直接受作業系統管理（而不是虛擬機器）。這樣做的結果就是能保持一個較小的堆，以減少垃圾收集對應用的影響。
deserialized：反序列化，其逆過程式列化（Serialization）是java提供的一種機制，將物件表示成一連串的位元組；而反序列化就表示將位元組恢復為物件的過程。序列化是物件永久化的一種機制，可以將物件及其屬性儲存起來，並能在反序列化後直接恢復這個物件
replication：備份數（在多個節點上備份）

理解了這5個引數，StorageLevel 的12種快取級別就不難理解了。

val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2) 就表示使用這種快取級別的RDD將儲存在硬碟以及記憶體中，使用序列化（在硬碟中），並且在多個節點上備份2份（正常的RDD只有一份）

另外還注意到有一種特殊的快取級別

val OFF_HEAP = new StorageLevel(false, false, true, false)

使用了堆外記憶體，StorageLevel 類的原始碼中有一段程式碼可以看出這個的特殊性，它不能和其它幾個引數共存。

if (useOffHeap) {
  require(!useDisk, "Off-heap storage level does not support using disk")
  require(!useMemory, "Off-heap storage level does not support using heap memory")
  require(!deserialized, "Off-heap storage level does not support deserialized storage")
  require(replication == 1, "Off-heap storage level does not support multiple replication")
}

每次進步一點點——spark中cache和persist的區別

昨天面試被問到了cache和persist區別，當時只記得是其中一個呼叫了另一個，但沒有回答出二者的不同，所以回來後重新看了原始碼，算是弄清楚它們的區別了。 cache和persist都是用於將一個RDD進行快取的，這樣在之後使用的過程中就不需要重新計算了，可

Spark中cache和persist的作用以及儲存級別

在Spark中有時候我們很多地方都會用到同一個RDD, 按照常規的做法的話,那麼每個地方遇到Action操作的時候都會對同一個運算元計算多次,這樣會造成效率低下的問題例如: val rdd1 = sc.textFile("xxx") rdd1.xxxx

每天進步一點點——Linux中的檔案描述符與開啟檔案之間的關係

在Linux系統中一切皆可以看成是檔案，檔案又可分為：普通檔案、目錄檔案、連結檔案和裝置檔案。檔案描述符（file descriptor）是核心為了高效管理已被開啟的檔案所建立的索引，其是一個非負整數（通常是小整數），用於指代被開啟的檔案，所有執行I/O操作的系統呼叫都通過檔案描述符。程式剛剛啟動的

每天進步一點點——Linux中的執行緒區域性儲存（二）

凡是帶有__thread的變數，每個執行緒都擁有該變數的一份拷貝，且互不干擾。執行緒區域性儲存中的變數將一直存在，直至執行緒終止，當執行緒終止時會自動釋放這一儲存。__thread並不是所有資料型別都可以使用的，因為其只支援POD(Plain old data structure)[1]型別，不支援clas

每次進步一點點——linux expect 使用

1. 介紹 expect是建立在tcl（參見：Tcl/Tk快速入門）基礎上的一個工具，它可以讓一些需要互動的任務自動化地完成。相當於模擬了使用者和命令列的互動操作。一個具體的場景：遠端登陸伺服器，並執行命令登入時輸入密碼需要互動，bash指令碼無法完

每天進步一點點-Java Serializable（對象序列化）的理解和總結

height puts 信息 new 網絡停止之間 internet clas 往硬盤文件裏寫數據序列化:序列化是將對象轉換為容易傳輸的格式的過程。例如，可以序列化一個對象，然後使用 HTTP 通過 Internet 在客戶端和服務器之間傳輸該對象。在另一端，反序列

【Big Data 每日一題20180821】Spark中ml和mllib的區別

Spark中ml和mllib的主要區別和聯絡如下： ml和mllib都是Spark中的機器學習庫，目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, 因為ml功能更全面更靈活，未來會主要支援ml，mllib很有可能會被廢棄(據說可能是在spark3.

每天進步一點點——Linux程式設計中的檔案鎖之flock

無論程式以什麼模式打開了檔案（讀、寫或者讀寫），該檔案上都可以放置一把共享鎖或互斥鎖。在實際操作過程中，引數operation可以指定對應的值將共享鎖轉換成互斥鎖（反之亦然）。將一個共享鎖轉換成互斥鎖，如果另一個程序要獲取該檔案的共享鎖則會阻塞，除非operation引數指定了LOCK_NB標記，即：(LOC

每天進步一點點——論fork()函式與Linux中的多執行緒程式設計

1. 雖然只將發起fork()呼叫的執行緒複製到子程序中，但全域性變數的狀態以及所有的pthreads物件（如互斥量、條件變數等）都會在子程序中得以保留，這就造成一個危險的局面。例如：一個執行緒在fork()被呼叫前鎖定了某個互斥量，且對某個全域性變數的更新也做到了一半，此時fork()被呼叫，所有資料及狀態

關於前端那些事：二、幾個重要協議TCP/IP和UDP（每天進步一點點）

1.什麼是TCP/IP協議要想了解什麼是TCP/IP協議，就要知道為什麼有這個協議。中國人和中國人說話，要遵循漢語的的語法結構，使用漢語的發音。當我們和外國人交流時，就要適用外國的語言了，遵循外國的語法機構和發音。其實這就是一種協議，只不過我們稱之為語言。計

每天進步一點點——Ganglia的Python擴展模塊開發

mar 命令啟動 time_t 重新 source https code eight 轉載請說明出處：http://blog.csdn.net/cywosp/article/details/39701245 註：本文涉及到的代碼都在centos

程序員，你要每天進步一點點-轉載

事情說了相愛調優集中 nbsp 中間數據丟了試驗第1個一點點：專註眼下見過太多心猿意馬的程序員，我不得不把「專註眼下」作為天字第一條。他們往往有各式各樣的小夢想，比如做個小茶農、做個小鵝販、做產品、做銷售、做投資，卻被程序員的高薪或是沒有轉行的魄力「耽誤」了

Python 3爬蟲網易雲（五）——每天進步一點點（正則表達式下篇之HTML標簽）

tdd htm python swf sofm pts 正則表達 eal href 51忠酶9euka杖淪28炊http://jz.docin.com/ngaxf40277 嵌擲Ic白冉qgw抑亢84http://jz.docin.com/fejci232 gw2d4永

每天進步一點點001

程序存儲進步並且世紀 src png 一點每天進步一點點之：2017-09-20 翻譯：很難確切的說現代計算機是在什麽時候發明的。從20世紀30年代到20世紀40年代，許多類似計算機的機器被發明出來。但是這些機器並不具備當代計算機的所有特性。這些特性是機器是電

每天進步一點點006

一點 alt self. logs 每天 eat 計算二進制 instead 翻譯：EDVAC完成之前，許多其他的機器被研制，吸收了Eckert、Mauchly和Neuman設計的要素。其中一部是電動的延遲存儲自動計算機，或簡稱EDSAC，在英國的劍橋大學研制，在194

每天進步一點點016

con err sin logs 其中使用 into src 負責翻譯：Remintong Rand，現在叫Sperr-Rand Corporation,它制造了許多第二代UNIVAC計算機。然而IBM仍然占據市場，其中最出名的第二代計算機之一是IBM 1401，它是

每天進步一點點020

編寫這才 bsp then .com image cnblogs ole .cn 翻譯：雖然集成電路在1958年被發明，但是第一臺計算機直到1964年才廣泛使用。在那一年，IBM引進了一臺叫System/360大型計算機系列。這一系列計算機成為了使用最廣泛的第三代機器。

每天進步一點點029

而不是但是 logs 現實 es2017 ble more 自己 cnblogs 翻譯：我們可能已經定義了最近的一代計算機並開啟了無代計算機的新時代。雖然計算機制造商稱呼第五代和第六代計算機，但是這種稱呼更多的是一種市場影響而不是現實表現。備註：meditate(沈思

每天進步一點點030

under es2017 nbsp inno 每天 most working spring ati 翻譯：無代計算機觀念提倡者聲明，雖然技術的革新正快速的一個接一個的到來，但沒有一種革新是，或將是足夠重要作為另一代計算機的特征。備註：advocate(提倡者、擁護者、主

PHP 每天進步一點點按照固定字段排序

每天 sort turn 進步 public key list ret return public function sortbykey($key,$list,$sort) { $flag = array();

每次進步一點點——spark中cache和persist的區別

cache和persist的區別

RDD的快取級別

相關推薦