1. 程式人生 > 實用技巧 >分析redis key大小的幾種方法

分析redis key大小的幾種方法

當redis被用作快取時,有時我們希望瞭解key的大小分佈,或者想知道哪些key佔的空間比較大。本文提供了幾種方法。

一. bigKeys

這是redis-cli自帶的一個命令。對整個redis進行掃描,尋找較大的key。例:

redis-cli -h b.redis -p 1959 --bigkeys

輸出:

# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Biggest hash   found so far 's_9329222' with 3 fields
[00.00%] Biggest string found so far 'url_http://mini.eastday.com/mobile/170722090206890.html?qid=sgllq&ch=east_sogou_push&pushid=13' with 8 bytes
[00.00%] Biggest string found so far 'foo' with 40 bytes
[00.00%] Biggest hash   found so far 's_9329084' with 4 fields
[00.23%] Biggest zset   found so far 'region_hot_菏澤地' with 625 members
[00.23%] Biggest zset   found so far 'region_hot_葫蘆島' with 914 members
[00.47%] Biggest string found so far 'top_notice_list' with 135193 bytes
[00.73%] Biggest zset   found so far 'region_hot_自貢' with 2092 members
[01.90%] Biggest hash   found so far 'uno_facet_2018-12-20' with 59 fields
[11.87%] Biggest zset   found so far 'region_hot_上海' with 2233 members
[27.05%] Biggest set    found so far 'blacklist_set_key' with 31832 members
[73.87%] Biggest string found so far 'PUSH_NEWS' with 3104237 bytes
[86.18%] Biggest zset   found so far 'region_hot_北京' with 2688 members

-------- summary -------

Sampled 4263 keys in the keyspace!
Total key length in bytes is 174847 (avg len 41.02)

Biggest string found 'PUSH_NEWS' has 3104237 bytes
Biggest    set found 'blacklist_set_key' has 31832 members
Biggest   hash found 'uno_facet_2018-12-20' has 59 fields
Biggest   zset found 'region_hot_北京' has 2688 members

1616 strings with 3771161 bytes (37.91% of keys, avg size 2333.64)
0 lists with 0 items (00.00% of keys, avg size 0.00)
1 sets with 31832 members (00.02% of keys, avg size 31832.00)
2353 hashs with 7792 fields (55.20% of keys, avg size 3.31)
293 zsets with 333670 members (06.87% of keys, avg size 1138.81)

說明:

  1. 該命令使用scan方式對key進行統計,所以使用時無需擔心對redis造成阻塞。
  2. 輸出大概分為兩部分,summary之上的部分,只是顯示了掃描的過程。summary部分給出了每種資料結構中最大的Key。
  3. 統計出的最大key只有string型別是以位元組長度為衡量標準的。list,set,zset等都是以元素個數作為衡量標準,不能說明其佔的記憶體就一定多。所以,如果你的Key主要以string型別存在,這種方法就比較適合。

更多關於bigkeys的說明可以參考這裡

二. debug object key

redis的命令,可以檢視某個key序列化後的長度。
例:

連線上redis後執行如下命令

b.redis:1959> hmset myhash k1 v1 k2 v2 k3 v3
OK
b.redis:1959> debug object myhash
Value at:0x7f005c6920a0 refcount:1 encoding:ziplist serializedlength:36 lru:3341677 lru_seconds_idle:2

關於輸出的項的說明:

  • Value at:key的記憶體地址
  • refcount:引用次數
  • encoding:編碼型別
  • serializedlength:序列化長度
  • lru_seconds_idle:空閒時間
    關於refcount, encoding, lru_seconds_idle的更詳細解釋可以參考這裡

幾個需要注意的問題

  • serializedlength是key序列化後的長度(redis在將key儲存為rdb檔案時使用了該演算法),並不是key在記憶體中的真正長度。這就像一個數組在json_encode後的長度與其在記憶體中的真正長度並不相同。不過,它側面反應了一個key的長度,可以用於比較兩個key的大小。
  • serializedlength會對字串做一些可能的壓縮。如果有些字串的壓縮比特別高,那麼在比較時會出現問題。比如下列:
b.redis:1959> set str1 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
OK
b.redis:1959> set str2 abcdefghijklmnopqrstuvwxyz1234
OK
b.redis:1959> debug object str1
Value at:0x7f007c035b80 refcount:1 encoding:embstr serializedlength:12 lru:3342615 lru_seconds_idle:13
b.redis:1959> debug object str2
Value at:0x7f00654df400 refcount:1 encoding:embstr serializedlength:31 lru:3342622 lru_seconds_idle:7

兩個字串的實際長度都是30, 但str1的serializedlength為12, str2的為31。

  • redis的官方文件不是特別建議在客戶端使用該命令,可能因為計算serializedlength的代價相對高。所以如果要統計的key比較多,就不適合這種方法。

三. redis rdb tools

這是一個redis rdb file的分析工具,可以根據rdb file生成記憶體報告。

3.1 安裝

需要python2.4以上版本和pip。

pip install rdbtools

3.2 生成記憶體報告

首先我們需要有一份rdb檔案,如果你在配置中開啟了rdb,那麼redis會自動生成rdb檔案。如果沒有,可以手動執行bgsave。如果是線上機器,執行時要考慮機器負載等問題。拿到rdb檔案後,我們就可以生成記憶體報告了。命令如下:

rdb -c memory file 

例:

rdb -c memory /tmp/dump.rdb 
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
0,hash,data:index_flow_yingshi,10492,hashtable,1,8992,2019-01-14T08:20:10.236000
0,hash,data:index_movie,22068,hashtable,7,2896,2019-01-14T07:29:19.685000
0,string,block:index_module_novel,8296,string,7694,7694,2019-01-13T00:27:46.128000
0,string,block:index_bottom_baike_aikan,8296,string,7632,7632,2019-01-14T02:27:11.850000
0,string,block:index_bottom_tools,5224,string,4549,4549,2019-01-13T01:02:09.171000
0,string,block:index_module_travel,7272,string,6408,6408,2019-01-13T00:43:39.478000
...

輸出了db,資料型別,key, 大小, 編碼等多列資訊。至於分析資料,你可以用shell,也可以儲存成csv用excel排序,或者乾脆存到db裡,想怎麼排怎麼排。

如果只要知道最大的N個key, 可以使用-l選項。例:

[@sjs_73_171 ~]$ rdb -c memory -l 3 /tmp/dump.rdb  
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
0,hash,city_tong,724236,hashtable,3113,216,2019-01-14T01:10:59.407000
0,hash,iplocsearch,406292,hashtable,383,180190,2019-01-30T05:37:56.082000
0,hash,weather_tong3,583844,hashtable,319,1658,2019-01-07T10:22:33.742000

3.3 檢視單個key

如果我們只需要查詢單個key所使用的記憶體可以不必依賴rdb file, 使用redis-memory-for-key命令即可。
例:

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 myhash
Key                             myhash
Bytes                           83
Type                            hash
Encoding                        ziplist
Number of Elements              3
Length of Largest Element       2

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 str1
Key                             str1
Bytes                           80
Type                            string

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 str2
Key                             str2
Bytes                           80
Type                            string

3.4 更多

  • 工具得出的記憶體值為近似值,這點可以參看作者的說明。"Why doesn't reported memory match actual memory used?"
  • 工具通過分析rdb file中的key及value,反算出該kv在記憶體中的大小。計算時充分考慮了資料型別的影響,key本身長度的影響,記憶體分配等多種因素。雖然得出的大小不是真實值,但用於key大小的比較是完全可以的。
  • rdb的功能不僅於此,它還可以將kv導成json格式,也可以按正則表示式只匯出部分key,
    更多使用方法可以檢視
rdb --help

也可以檢視git上的幫助文件

四. 總結

  • 如果想粗略的看下最大key, 可以使用bigKeys。
  • 如果查詢的key不多,key的壓縮比又沒有明顯差異,可以使用debug object key。
  • 如果不介意安裝個工具,那麼redis rdb tools似乎是最佳選擇。