1. 程式人生 > >redis學習——資料持久化

redis學習——資料持久化

一、概述

      Redis的強大效能很大程度上都是因為所有資料都是儲存在記憶體中的,然而當Redis重啟後,所有儲存在記憶體中的資料將會丟失,在很多情況下是無法容忍這樣的事情的。所以,我們需要將記憶體中的資料持久化!典型的需要持久化資料的場景如下:

  • 將Redis作為資料庫使用;
  • 將Redis作為快取伺服器使用,但是快取miss後會對效能造成很大影響,所有快取同時失效時會造成服務雪崩,無法響應。

本文介紹Redis所支援的兩種資料持久化方式。

二、Redis資料持久化

      Redis支援兩種資料持久化方式:RDB方式和AOF方式。前者會根據配置的規則定時將記憶體中的資料持久化到硬碟上,後者則是在每次執行寫命令之後將命令記錄下來。兩種持久化方式可以單獨使用,但是通常會將兩者結合使用。

1、RDB方式

     RDB方式的持久化是通過快照的方式完成的。當符合某種規則時,會將記憶體中的資料全量生成一份副本儲存到硬碟上,這個過程稱作”快照”,Redis會在以下幾種情況下對資料進行快照:

  • 根據配置規則進行自動快照;
  • 使用者執行SAVE, BGSAVE命令;
  • 執行FLUSHALL命令;
  • 執行復制(replication)時。

執行快照的場景

(1)根據配置自動快照

      Redis允許使用者自定義快照條件,當滿足條件時自動執行快照。預設情況下,Redis把資料快照存放在磁碟上的二進位制檔案中,檔名為dump.rdb,此外,我們也可以通過配置檔案來修改Redis伺服器dump快照的頻率,在開啟redis.windows.conf檔案之後,我們搜尋save,可以看到下面的配置資訊:

注意最後三行,分別表示:

在900秒(15分鐘)之後,如果至少有1個key發生變化,則dump記憶體快照;

在300秒(5分鐘)之後,如果至少有10個key發生變化,則dump記憶體快照;

在60秒(1分鐘)之後,如果至少有10000個key發生變化,則dump記憶體快照。

     每個快照條件獨佔一行,他們之間是或(||)關係,只要滿足任何一個就進行快照。上面配置save後的第一個引數T是時間,單位是秒,第二個引數M是更改的鍵的個數,含義是:當時間T內被更改的鍵的個數大於M時,自動進行快照。比如save 900 1的含義是15分鐘內(900s)被更改的鍵的個數大於1時,自動進行快照操作。

(2)執行SAVE或BGSAVE命令

除了讓Redis自動進行快照外,當我們需要重啟,遷移,備份Redis時,我們也可以手動執行SAVE或BGSAVE命令主動進行快照操作。

  • SAVE命令:當執行SAVE命令時,Redis同步進行快照操作,期間會阻塞所有來自客戶端的請求,所以放資料庫資料較多時,應該避免使用該命令;
  • BGSAVE命令: 從命令名字就能看出來,這個命令與SAVE命令的區別就在於該命令的快照操作是在後臺非同步進行的,進行快照操作的同時還能處理來自客戶端的請求。執行BGSAVE命令後Redis會馬上返回OK表示開始進行快照操作,如果想知道快照操作是否已經完成,可以使用LASTSAVE命令返回最近一次成功執行快照的時間,返回結果是一個Unix時間戳。

(3)執行FLUSHALL命令

     當執行FLUSHALL命令時,Redis會清除資料庫中的所有資料。需要注意的是:不論清空資料庫的過程是否觸發了自動快照的條件,只要自動快照條件不為空,Redis就會執行一次快照操作,當沒有定義自動快照條件時,執行FLUSHALL命令不會進行快照操作。

(4)執行復制

當設定了主從模式時,Redis會在複製初始化時進行自動快照。

快照原理

      Redis預設會將快照檔案儲存在Redis當前程序的工作目錄的dump.rdb檔案中,可以通過配置檔案中的dir和dbfilename兩個引數分別指定快照檔案的儲存路徑和檔名,預設的儲存路徑和檔名如下圖所示:

快照執行的過程如下:

(1)Redis使用fork函式複製一份當前程序(父程序)的副本(子程序);
(2)父程序繼續處理來自客戶端的請求,子程序開始將記憶體中的資料寫入硬碟中的臨時檔案;
(3)當子程序寫完所有的資料後,用該臨時檔案替換舊的RDB檔案,至此,一次快照操作完成。

需要注意的是:

在執行fork的時候作業系統(類Unix作業系統)會使用寫時複製(copy-on-write)策略,即fork函式發生的一刻,父程序和子程序共享同一塊記憶體資料,當父程序需要修改其中的某片資料(如執行寫命令)時,作業系統會將該片資料複製一份以保證子程序不受影響,所以RDB檔案儲存的是執行fork操作那一刻的記憶體資料。所以RDB方式理論上是會存在丟資料的情況的(fork之後修改的的那些沒有寫進RDB檔案)。

      通過上述的介紹可以知道,快照進行時是不會修改RDB檔案的,只有完成的時候才會用臨時檔案替換老的RDB檔案,所以就保證任何時候RDB檔案的都是完整的。這使得我們可以通過定時備份RDB檔案來實現Redis資料的備份。RDB檔案是經過壓縮處理的二進位制檔案,所以佔用的空間會小於記憶體中資料的大小,更有利於傳輸。

      Redis啟動時會自動讀取RDB快照檔案,將資料從硬碟載入到記憶體,根據數量的不同,這個過程持續的時間也不盡相同,通常來講,一個記錄1000萬個字串型別鍵,大小為1GB的快照檔案載入到記憶體需要20-30秒的時間。

示例

下面演示RDB方式持久化,首先使用配置有如下快照規則:

複製程式碼
save 900 1
save 300 10
save 60 10000
dbfilename dump.rdb
dir ./
複製程式碼

啟動Redis服務:

然後通過客戶端設定一個鍵值:

現在強行kill Redis服務,執行shutdown命令:

現在到D:\Redis_x64_321\目錄看,目錄下出現了Redis的快照檔案dump.rdb:

現在重新啟動Redis,然後再用客戶端連線,檢查之前設定的key是否還存在:

可以發現,之前設定的key在Redis重啟之後又通過快照檔案dump.rdb恢復了。

2、AOF方式

     在使用Redis儲存非臨時資料時,一般都需要開啟AOF持久化來降低程序終止導致的資料丟失,AOF可以將Redis執行的每一條寫命令追加到硬碟檔案中,這一過程顯然會降低Redis的效能,但是大部分情況下這個影響是可以接受的,另外,使用較快的硬碟能提高AOF的效能。

開啟AOF

預設情況下,Redis沒有開啟AOF(append only file)持久化功能,可以通過在配置檔案中作如下配置啟用:

開啟之後,Redis每執行一條寫命令就會將該命令寫入硬碟中的AOF檔案。AOF檔案儲存路徑和RDB檔案路徑是一致的,都是通過dir引數配置,預設檔名是:appendonly.aof,可以通過配置appendonlyfilename引數修改,例如:

AOF持久化的實現

AOF以純文字的形式記錄了Redis執行的寫命令,例如在開啟AOF持久化的情況下執行如下命令:

然後檢視D:\Redis_x64_321\appendonly.aof檔案:

檔案中的內容正是Redis剛才執行的命令的內容,內容的格式就先不展開敘述了。

AOF檔案重寫

      AOF檔案是可識別的純文字,它的內容就是一個個的Redis標準命令,
      AOF日誌也不是完全按客戶端的請求來生成日誌的,比如命令 INCRBYFLOAT 在記AOF日誌時就被記成一條SET記錄,因為浮點數操作可能在不同的系統上會不同,所以為了避免同一份日誌在不同的系統上生成不同的資料集,所以這裡只將操作後的結果通過SET來記錄。

      每一條寫命令都生成一條日誌,AOF檔案會很大。

     AOF重寫是重新生成一份AOF檔案,新的AOF檔案中一條記錄的操作只會有一次,而不像一份老檔案那樣,可能記錄了對同一個值的多次操作。其生成過程和RDB類似,也是fork一個程序,直接遍歷資料,寫入新的AOF臨時檔案。在寫入新檔案的過程中,所有的寫操作日誌還是會寫到原來老的AOF檔案中,同時還會記錄在記憶體緩衝區中。當重完操作完成後,會將所有緩衝區中的日誌一次性寫入到臨時檔案中。然後呼叫原子性的rename命令用新的 AOF檔案取代老的AOF檔案。

 命令:BGREWRITEAOF, 我們應該經常呼叫這個命令來來重寫。

============================================================================= 

假設Redis執行了如下命令:

      如果這所有的命令都寫到AOF檔案的話,將是一個比較蠢的行為,因為前面兩個命令會被第三個命令覆蓋,所以AOF檔案完全不需要儲存前面兩個命令,事實上Redis確實就是這麼做的。刪除AOF檔案中無用的命令的過程稱為"AOF重寫",AOF重寫可以在配置檔案中做相應的配置,當滿足配置的條件時,自動進行AOF重寫操作。配置如下:

auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb

第一行的意思是,目前的AOF檔案的大小超過上一次重寫時的AOF檔案的百分之多少時再次進行重寫,如果之前沒有重寫過,則以啟動時AOF檔案大小為依據。
第二行的意思是,當AOF檔案的大小大於64MB時才進行重寫,因為如果AOF檔案本來就很小時,有幾個無效的命令也是無傷大雅的事情。
這兩個配置項通常一起使用。

我們還可以手動執行BGREWRITEAOF命令主動讓Redis重寫AOF檔案:

執行重寫命令之後檢視現在的AOF檔案:

可以看到,檔案中並沒有再記錄set k v1這樣的無效命令。

同步硬碟資料

     雖然每次執行更改資料庫的內容時,AOF都會記錄執行的命令,但是由於作業系統本身的硬碟快取的緣故,AOF檔案的內容並沒有真正地寫入硬碟,在預設情況下,作業系統會每隔30s將硬碟快取中的資料同步到硬碟,但是為了防止系統異常退出而導致丟資料的情況發生,我們還可以在Redis的配置檔案中配置這個同步的頻率:

1 # appendfsync always
2 appendfsync everysec
3 # appendfsync no

第一行表示每次AOF寫入一個命令都會執行同步操作,這是最安全也是最慢的方式;
第二行表示每秒鐘進行一次同步操作,一般來說使用這種方式已經足夠;
第三行表示不主動進行同步操作,這是最不安全的方式。

選項:

  1、appendfsync no

  當設定appendfsync為no的時候,Redis不會主動呼叫fsync去將AOF日誌內容同步到磁碟,所以這一切就完全依賴於作業系統的除錯了。對大多數Linux作業系統,是每30秒進行一次fsync,將緩衝區中的資料寫到磁碟上。

  2、appendfsync everysec

      當設定appendfsync為everysec的時候,Redis會預設每隔一秒進行一次fsync呼叫,將緩衝區中的資料寫到磁碟。但是當這一次的fsync呼叫時長超過1秒時。Redis會採取延遲fsync的策略,再等一秒鐘。也就是在兩秒後再進行fsync,這一次的fsync就不管會執行多長時間都會進行。這時候由於在fsync時檔案描述符會被阻塞,所以當前的寫操作就會阻塞。所以,結論就是:在絕大多數情況下,Redis會每隔一秒進行一次fsync。在最壞的情況下,兩秒鐘會進行一次fsync操作。這一操作在大多數資料庫系統中被稱為group commit,就是組合多次寫操作的資料,一次性將日誌寫到磁碟。

  3、appednfsync always

      當設定appendfsync為always時,每一次寫操作都會呼叫一次fsync,這時資料是最安全的,當然,由於每次都會執行fsync,所以其效能也會受到影響。

   建議採用 appendfsync everysec(預設方式)

  快照模式可以和AOF模式同時開啟,互補影響。

三、二者的區別

     RDB持久化是指在指定的時間間隔內將記憶體中的資料集快照寫入磁碟,實際操作過程是fork一個子程序,先將資料集寫入臨時檔案,寫入成功後,再替換之前的檔案,用二進位制壓縮儲存。

 AOF持久化以日誌的形式記錄伺服器所處理的每一個寫、刪除操作,查詢操作不會記錄,以文字的方式記錄,可以開啟檔案看到詳細的操作記錄。

四、二者優缺點

RDB存在哪些優勢呢?

    1). 一旦採用該方式,那麼你的整個Redis資料庫將只包含一個檔案,這對於檔案備份而言是非常完美的。比如,你可能打算每個小時歸檔一次最近24小時的資料,同時還要每天歸檔一次最近30天的資料。通過這樣的備份策略,一旦系統出現災難性故障,我們可以非常容易的進行恢復。
    2). 對於災難恢復而言,RDB是非常不錯的選擇。因為我們可以非常輕鬆的將一個單獨的檔案壓縮後再轉移到其它儲存介質上。
    3). 效能最大化。對於Redis的服務程序而言,在開始持久化時,它唯一需要做的只是fork出子程序,之後再由子程序完成這些持久化的工作,這樣就可以極大的避免服務程序執行IO操作了。
    4). 相比於AOF機制,如果資料集很大,RDB的啟動效率會更高。
    
RDB又存在哪些劣勢呢?

    1). 如果你想保證資料的高可用性,即最大限度的避免資料丟失,那麼RDB將不是一個很好的選擇。因為系統一旦在定時持久化之前出現宕機現象,此前沒有來得及寫入磁碟的資料都將丟失。
    2). 由於RDB是通過fork子程序來協助完成資料持久化工作的,因此,如果當資料集較大時,可能會導致整個伺服器停止服務幾百毫秒,甚至是1秒鐘。

AOF的優勢有哪些呢? 

  1). 該機制可以帶來更高的資料安全性,即資料永續性。Redis中提供了3中同步策略,即每秒同步、每修改同步和不同步。事實上,每秒同步也是非同步完成的,其效率也是非常高的,所差的是一旦系統出現宕機現象,那麼這一秒鐘之內修改的資料將會丟失。而每修改同步,我們可以將其視為同步持久化,即每次發生的資料變化都會被立即記錄到磁碟中。可以預見,這種方式在效率上是最低的。至於無同步,無需多言,我想大家都能正確的理解它。
    2). 由於該機制對日誌檔案的寫入操作採用的是append模式,因此在寫入過程中即使出現宕機現象,也不會破壞日誌檔案中已經存在的內容。然而如果我們本次操作只是寫入了一半資料就出現了系統崩潰問題,不用擔心,在Redis下一次啟動之前,我們可以通過redis-check-aof工具來幫助我們解決資料一致性的問題。
    3). 如果日誌過大,Redis可以自動啟用rewrite機制。即Redis以append模式不斷的將修改資料寫入到老的磁碟檔案中,同時Redis還會建立一個新的檔案用於記錄此期間有哪些修改命令被執行。因此在進行rewrite切換時可以更好的保證資料安全性。
    4). AOF包含一個格式清晰、易於理解的日誌檔案用於記錄所有的修改操作。事實上,我們也可以通過該檔案完成資料的重建。
    
AOF的劣勢有哪些呢?
    1). 對於相同數量的資料集而言,AOF檔案通常要大於RDB檔案。RDB 在恢復大資料集時的速度比 AOF 的恢復速度要快。
    2). 根據同步策略的不同,AOF在執行效率上往往會慢於RDB。總之,每秒同步策略的效率是比較高的,同步禁用策略的效率和RDB一樣高效。

   二者選擇的標準,就是看系統是願意犧牲一些效能,換取更高的快取一致性(aof),還是願意寫操作頻繁的時候,不啟用備份來換取更高的效能,待手動執行save的時候,再做備份(rdb)。rdb這個就更有些 eventually consistent的意思了。

五、常用配置

RDB持久化配置

Redis會將資料集的快照dump到dump.rdb檔案中。此外,我們也可以通過配置檔案來修改Redis伺服器dump快照的頻率,在開啟6379.conf檔案之後,我們搜尋save,可以看到下面的配置資訊:
    save 900 1              #在900秒(15分鐘)之後,如果至少有1個key發生變化,則dump記憶體快照。
    save 300 10            #在300秒(5分鐘)之後,如果至少有10個key發生變化,則dump記憶體快照。
    save 60 10000        #在60秒(1分鐘)之後,如果至少有10000個key發生變化,則dump記憶體快照。

AOF持久化配置 

在Redis的配置檔案中存在三種同步方式,它們分別是:
    appendfsync always     #每次有資料修改發生時都會寫入AOF檔案。
    appendfsync everysec  #每秒鐘同步一次,該策略為AOF的預設策略。
    appendfsync no          #從不同步。高效但是資料不會被持久化。