1. 程式人生 > >redis應用場景

redis應用場景

   毫無疑問,Redis開創了一種新的資料儲存思路,使用Redis,我們不用在面對功能單調的資料庫時,把精力放在如何把大象放進冰箱這樣的問題上,而是利用Redis靈活多變的資料結構和資料操作,為不同的大象構建不同的冰箱。希望你喜歡這個比喻。

一、Redis常用資料型別

Redis最為常用的資料型別主要有以下五種:

  • String
  • Hash
  • List
  • Set
  • Sorted set

在具體描述這幾種資料型別之前,我們先通過一張圖瞭解下Redis內部記憶體管理中是如何描述這些不同資料型別的:

     首先Redis內部使用一個redisObject物件來表示所有的key和value,redisObject最主要的資訊如上圖所示:type代表一個value物件具體是何種資料型別,encoding是不同資料型別在redis內部的儲存方式,比如:type=string代表value儲存的是一個普通字串,那麼對應的encoding可以是raw或者是int,如果是int則代表實際redis內部是按數值型類儲存和表示這個字串的,當然前提是這個字串本身可以用數值表示,比如:"123" "456"這樣的字串。

    這裡需要特殊說明一下vm欄位,只有打開了Redis的虛擬記憶體功能,此欄位才會真正的分配記憶體,該功能預設是關閉狀態的。通過上圖我們可以發現Redis使用redisObject來表示所有的key/value資料是比較浪費記憶體的,當然這些記憶體管理成本的付出主要也是為了給Redis不同資料型別提供一個統一的管理介面,實際作者也提供了多種方法幫助我們儘量節省記憶體使用,我們隨後會具體討論。

二、各種資料型別應用和實現方式

下面我們先來逐一的分析下這五種資料型別的使用和內部實現方式:

1、String

String 資料結構是簡單的key-value型別,value其實不僅是String,也可以是數字。

常用命令:get、set、incr、decr、mget等。

應用場景:String是最常用的一種資料型別,普通的key/ value 儲存都可以歸為此類,即可以完全實現目前 Memcached 的功能,並且效率更高。還可以享受Redis的定時持久化,操作日誌及 Replication等功能。除了提供與 Memcached 一樣的get、set、incr、decr 等操作外,Redis還提供了下面一些操作: 

  • 獲取字串長度
  • 往字串append內容
  • 設定和獲取字串的某一段內容
  • 設定及獲取字串的某一位(bit)
  • 批量設定一系列字串的內容

使用場景:常規key-value快取應用。常規計數: 微博數, 粉絲數。

實現方式:String在redis內部儲存預設就是一個字串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding欄位為int。

2、Hash

常用命令:hget,hset,hgetall 等。

應用場景:

我們簡單舉個例項來描述下Hash的應用場景,比如我們要儲存一個使用者資訊物件資料,包含以下資訊:

使用者ID為查詢的key,儲存的value使用者物件包含姓名,年齡,生日等資訊,如果用普通的key/value結構來儲存,主要有以下2種儲存方式:

    第一種方式將使用者ID作為查詢key,把其他資訊封裝成一個物件以序列化的方式儲存,這種方式的缺點是,增加了序列化/反序列化的開銷,並且在需要修改其中一項資訊時,需要把整個物件取回,並且修改操作需要對併發進行保護,引入CAS等複雜問題。

    第二種方法是這個使用者資訊物件有多少成員就存成多少個key-value對兒,用使用者ID+對應屬性的名稱作為唯一標識來取得對應屬性的值,雖然省去了序列化開銷和併發問題,但是使用者ID為重複儲存,如果存在大量這樣的資料,記憶體浪費還是非常可觀的。

那麼Redis提供的Hash很好的解決了這個問題,Redis的Hash實際是內部儲存的Value為一個HashMap,並提供了直接存取這個Map成員的介面,如下圖:

    也就是說,Key仍然是使用者ID, value是一個Map,這個Map的key是成員的屬性名,value是屬性值,這樣對資料的修改和存取都可以直接通過其內部Map的Key(Redis裡稱內部Map的key為field), 也就是通過 key(使用者ID) + field(屬性標籤) 就可以操作對應屬性資料了,既不需要重複儲存資料,也不會帶來序列化和併發修改控制的問題。很好的解決了問題。

    這裡同時需要注意,Redis提供了介面(hgetall)可以直接取到全部的屬性資料,但是如果內部Map的成員很多,那麼涉及到遍歷整個內部Map的操作,由於Redis單執行緒模型的緣故,這個遍歷操作可能會比較耗時,而另其它客戶端的請求完全不響應,這點需要格外注意。

使用場景:儲存部分變更資料,如使用者資訊等。

實現方式:

   上面已經說到Redis Hash對應Value內部實際就是一個HashMap,實際這裡會有2種不同實現,這個Hash的成員比較少時Redis為了節省記憶體會採用類似一維陣列的方式來緊湊儲存,而不會採用真正的HashMap結構,對應的value redisObject的encoding為zipmap,當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

3、List

常用命令:lpush,rpush,lpop,rpop,lrange等。

應用場景:

Redis list的應用場景非常多,也是Redis最重要的資料結構之一,比如twitter的關注列表,粉絲列表等都可以用Redis的list結構來實現。

List 就是連結串列,相信略有資料結構知識的人都應該能理解其結構。使用List結構,我們可以輕鬆地實現最新訊息排行等功能。List的另一個應用就是訊息佇列, 可以利用List的PUSH操作,將任務存在List中,然後工作執行緒再用POP操作將任務取出進行執行。Redis還提供了操作List中某一段的api,你可以直接查詢,刪除List中某一段的元素。

實現方式:

Redis list的實現為一個雙向連結串列,即可以支援反向查詢和遍歷,更方便操作,不過帶來了部分額外的記憶體開銷,Redis內部的很多實現,包括髮送緩衝佇列等也都是用的這個資料結構。

Redis的list是每個子元素都是String型別的雙向連結串列,可以通過push和pop操作從列表的頭部或者尾部新增或者刪除元素,這樣List即可以作為棧,也可以作為佇列。 

使用場景:

訊息佇列系統

使用list可以構建佇列系統,使用sorted set甚至可以構建有優先順序的佇列系統。

比如:將Redis用作日誌收集器

實際上還是一個佇列,多個端點將日誌資訊寫入Redis,然後一個worker統一將所有日誌寫到磁碟。

取最新N個數據的操作

記錄前N個最新登陸的使用者Id列表,超出的範圍可以從資料庫中獲得。

複製程式碼

//把當前登入人新增到連結串列裡
ret = r.lpush("login:last_login_times", uid)

//保持連結串列只有N位
ret = redis.ltrim("login:last_login_times", 0, N-1)

//獲得前N個最新登陸的使用者Id列表
last_login_list = r.lrange("login:last_login_times", 0, N-1)

複製程式碼

比如sina微博:

     在Redis中我們的最新微博ID使用了常駐快取,這是一直更新的。但是我們做了限制不能超過5000個ID,因此我們的獲取ID函式會一直詢問Redis。只有在start/count引數超出了這個範圍的時候,才需要去訪問資料庫。

    我們的系統不會像傳統方式那樣“重新整理”快取,Redis例項中的資訊永遠是一致的。SQL資料庫(或是硬碟上的其他型別資料庫)只是在使用者需要獲取“很遠”的資料時才會被觸發,而主頁或第一個評論頁是不會麻煩到硬碟上的資料庫了。

4、Set

常用命令:

sadd,spop,smembers,sunion 等。

應用場景:

     Redis set對外提供的功能與list類似是一個列表的功能,特殊之處在於set是可以自動排重的,當你需要儲存一個列表資料,又不希望出現重複資料時,set是一個很好的選擇,並且set提供了判斷某個成員是否在一個set集合內的重要介面,這個也是list所不能提供的。

Set 就是一個集合,集合的概念就是一堆不重複值的組合。利用Redis提供的Set資料結構,可以儲存一些集合性的資料。

案例:

在微博應用中,可以將一個使用者所有的關注人存在一個集合中,將其所有粉絲存在一個集合。Redis還為集合提供了求交集、並集、差集等操作,可以非常方便的實現如共同關注、共同喜好、二度好友等功能,對上面的所有集合操作,你還可以使用不同的命令選擇將結果返回給客戶端還是存集到一個新的集合中。

Set是集合,是String型別的無序集合,set是通過hashtable實現的,概念和數學中個的集合基本類似,可以交集,並集,差集等等,set中的元素是沒有順序的。

實現方式: 

set 的內部實現是一個 value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內的原因。

使用場景:

交集,並集,差集:(Set)

複製程式碼

//book表儲存book名稱

set book:1:name    ”The Ruby Programming Language”

set book:2:name     ”Ruby on rail”

set book:3:name     ”Programming Erlang”

//tag表使用集合來儲存資料,因為集合擅長求交集、並集

sadd tag:ruby 1

sadd tag:ruby 2

sadd tag:web 2

sadd tag:erlang 3

//即屬於ruby又屬於web的書?

 inter_list = redis.sinter("tag.web", "tag:ruby") 

//即屬於ruby,但不屬於web的書?

 inter_list = redis.sdiff("tag.ruby", "tag:web") 

//屬於ruby和屬於web的書的合集?

 inter_list = redis.sunion("tag.ruby", "tag:web")

複製程式碼

獲取某段時間所有資料去重值

這個使用Redis的set資料結構最合適了,只需要不斷地將資料往set中扔就行了,set意為集合,所以會自動排重。

5、Sorted Set

常用命令:

zadd,zrange,zrem,zcard等

使用場景:

     Redis sorted set的使用場景與set類似,區別是set不是自動有序的,而sorted set可以通過使用者額外提供一個優先順序(score)的引數來為成員排序,並且是插入有序的,即自動排序。當你需要一個有序的並且不重複的集合列表,那麼可以選擇sorted set資料結構,比如twitter 的public timeline可以以發表時間作為score來儲存,這樣獲取時就是自動按時間排好序的。

    和Set相比,Sorted Set增加了一個權重引數score,使得集合中的元素能夠按score進行有序排列,比如一個儲存全班同學成績的Sorted Set,其集合value可以是同學的學號,而score就可以是其考試得分,這樣在資料插入集合的時候,就已經進行了天然的排序。另外還可以用Sorted Set來做帶權重的佇列,比如普通訊息的score為1,重要訊息的score為2,然後工作執行緒可以選擇按score的倒序來獲取工作任務。讓重要的任務優先執行。

實現方式:

    Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證資料的儲存和有序,HashMap裡放的是成員到score的對映,而跳躍表裡存放的是所有的成員,排序依據是HashMap裡存的score,使用跳躍表的結構可以獲得比較高的查詢效率,並且在實現上比較簡單。

三、Redis實際應用場景

1、顯示最新的專案列表

下面這個語句常用來顯示最新專案,隨著資料多了,查詢毫無疑問會越來越慢。

SELECT * FROM foo WHERE ... ORDER BY time DESC LIMIT 10   

      在Web應用中,“列出最新的回覆”之類的查詢非常普遍,這通常會帶來可擴充套件性問題。這令人沮喪,因為專案本來就是按這個順序被建立的,但要輸出這個順序卻不得不進行排序操作。類似的問題就可以用Redis來解決。比如說,我們的一個Web應用想要列出使用者貼出的最新20條評論。在最新的評論邊上我們有一個“顯示全部”的連結,點選後就可以獲得更多的評論。我們假設資料庫中的每條評論都有一個唯一的遞增的ID欄位。我們可以使用分頁來製作主頁和評論頁,使用Redis的模板,每次新評論發表時,我們會將它的ID新增到一個Redis列表:

LPUSH latest.comments <ID>   

我們將列表裁剪為指定長度,因此Redis只需要儲存最新的5000條評論:

LTRIM latest.comments 0 5000 

每次我們需要獲取最新評論的專案範圍時,我們呼叫一個函式來完成(使用虛擬碼):

複製程式碼

FUNCTION get_latest_comments(start, num_items):  
    id_list = redis.lrange("latest.comments",start,start+num_items - 1)  
    IF id_list.length < num_items  
        id_list = SQL_DB("SELECT ... ORDER BY time LIMIT ...")  
    END  
    RETURN id_list  
END 

複製程式碼

       這裡我們做的很簡單。在Redis中我們的最新ID使用了常駐快取,這是一直更新的。但是我們做了限制不能超過5000個ID,因此我們的獲取ID函式會一直詢問Redis。只有在start/count引數超出了這個範圍的時候,才需要去訪問資料庫。

       我們的系統不會像傳統方式那樣“重新整理”快取,Redis例項中的資訊永遠是一致的。SQL資料庫(或是硬碟上的其他型別資料庫)只是在使用者需要獲取“很遠”的資料時才會被觸發,而主頁或第一個評論頁是不會麻煩到硬碟上的資料庫了。

2、排行榜應用,取TOP N操作

     這個需求與上面需求的不同之處在於,取最新N個數據的操作以時間為權重,這個是以某個條件為權重,比如按頂的次數排序,這時候就需要我們的sorted set出馬了,將你要排序的值設定成sorted set的score,將具體的資料設定成相應的value,每次只需要執行一條ZADD命令即可。

熱門,排行榜應用:

複製程式碼

//將登入次數和使用者統一儲存在一個sorted set裡
zadd login:login_times 5 1
zadd login:login_times 1 2
zadd login:login_times 2 3
//當用戶登入時,對該使用者的登入次數自增1
ret = r.zincrby("login:login_times", 1, uid)
//那麼如何獲得登入次數最多的使用者呢,逆序排列取得排名前N的使用者
ret = r.zrevrange("login:login_times", 0, N-1)

複製程式碼

     另一個很普遍的需求是各種資料庫的資料並非儲存在記憶體中,因此在按得分排序以及實時更新這些幾乎每秒鐘都需要更新的功能上資料庫的效能不夠理想。典型的比如那些線上遊戲的排行榜,比如一個Facebook的遊戲,根據得分你通常想要:

- 列出前100名高分選手

- 列出某使用者當前的全球排名

這些操作對於Redis來說小菜一碟,即使你有幾百萬個使用者,每分鐘都會有幾百萬個新的得分。模式是這樣的,每次獲得新得分時,我們用這樣的程式碼:

ZADD leaderboard  <score>  <username>

你可能用userID來取代username,這取決於你是怎麼設計的。得到前100名高分使用者很簡單:

ZREVRANGE leaderboard 0 99

 使用者的全球排名也相似,只需要:

ZRANK leaderboard <username>

3、刪除與過濾

      我們可以使用LREM來刪除評論。如果刪除操作非常少,另一個選擇是直接跳過評論條目的入口,報告說該評論已經不存在。 有些時候你想要給不同的列表附加上不同的過濾器。如果過濾器的數量受到限制,你可以簡單的為每個不同的過濾器使用不同的Redis列表。畢竟每個列表只有5000條專案,但Redis卻能夠使用非常少的記憶體來處理幾百萬條專案。

4、按照使用者投票和時間排序

     排行榜的一種常見變體模式就像Reddit或Hacker News用的那樣,新聞按照類似下面的公式根據得分來排序:score = points / time^alpha 因此使用者的投票會相應的把新聞挖出來,但時間會按照一定的指數將新聞埋下去。下面是我們的模式,當然演算法由你決定。模式是這樣的,開始時先觀察那些可能是最新的專案,例如首頁上的1000條新聞都是候選者,因此我們先忽視掉其他的,這實現起來很簡單。每次新的新聞貼上來後,我們將ID新增到列表中,使用LPUSH + LTRIM,確保只取出最新的1000條專案。有一項後臺任務獲取這個列表,並且持續的計算這1000條新聞中每條新聞的最終得分。計算結果由ZADD命令按照新的順序填充生成列表,老新聞則被清除。這裡的關鍵思路是排序工作是由後臺任務來完成的。

5、處理過期專案

另一種常用的專案排序是按照時間排序。我們使用unix時間作為得分即可。 模式如下:

- 每次有新專案新增到我們的非Redis資料庫時,我們把它加入到排序集合中。這時我們用的是時間屬性,current_time和time_to_live。

- 另一項後臺任務使用ZRANGE…SCORES查詢排序集合,取出最新的10個專案。如果發現unix時間已經過期,則在資料庫中刪除條目。

6、計數

      Redis是一個很好的計數器,這要感謝INCRBY和其他相似命令。我相信你曾許多次想要給資料庫加上新的計數器,用來獲取統計或顯示新資訊,但是最後卻由於寫入敏感而不得不放棄它們。好了,現在使用Redis就不需要再擔心了。有了原子遞增(atomic increment),你可以放心的加上各種計數,用GETSET重置,或者是讓它們過期。例如這樣操作:

INCR user:<id> EXPIRE  

你可以計算出最近使用者在頁面間停頓不超過60秒的頁面瀏覽量,當計數達到比如20時,就可以顯示出某些條幅提示,或是其它你想顯示的東西。

7、特定時間內的特定專案

        另一項對於其他資料庫很難,但Redis做起來卻輕而易舉的事就是統計在某段特點時間裡有多少特定使用者訪問了某個特定資源。比如我想要知道某些特定的註冊使用者或IP地址,他們到底有多少訪問了某篇文章。每次我獲得一次新的頁面瀏覽時我只需要這樣做:

SADD page:day1:<page_id> <user_id> 

當然你可能想用unix時間替換day1,比如time()-(time()%3600*24)等等。 想知道特定使用者的數量嗎?只需要使用

SCARD page:day1:<page_id>

需要測試某個特定使用者是否訪問了這個頁面?

SISMEMBER page:day1:<page_id>

8、查詢某個值所在的區間(區間無重合) :(Sorted Set)

例如有下面兩個範圍,10-20和30-40

  • A_start 10, A_end 20
  • B_start 30, B_end 40

我們將這兩個範圍的起始位置存在Redis的Sorted Sets資料結構中,基本範圍起始值作為score,範圍名加start和end為其value值:

複製程式碼

redis 127.0.0.1:6379> zadd ranges 10 A_start
(integer) 1
redis 127.0.0.1:6379> zadd ranges 20 A_end
(integer) 1
redis 127.0.0.1:6379> zadd ranges 30 B_start
(integer) 1
redis 127.0.0.1:6379> zadd ranges 40 B_end
(integer) 1

複製程式碼

這樣資料在插入Sorted Sets後,相當於是將這些起始位置按順序排列好了。現在我需要查詢15這個值在哪一個範圍中,只需要進行如下的zrangbyscore查詢:

redis 127.0.0.1:6379> zrangebyscore ranges (15 +inf LIMIT 0 1
1) "A_end"

這個命令的意思是在Sorted Sets中查詢大於15的第一個值。(+inf在Redis中表示正無窮大,15前面的括號表示>15而非>=15)查詢的結果是A_end,由於所有值是按順序排列的,所以可以判定15是在A_start到A_end區間上,也就是說15是在A這個範圍裡。至此大功告成。

9、交集,並集,差集:(Set)

複製程式碼

//book表儲存book名稱
set book:1:name    ”The Ruby Programming Language”
set book:2:name     ”Ruby on rail”
set book:3:name     ”Programming Erlang”

//tag表使用集合來儲存資料,因為集合擅長求交集、並集
sadd tag:ruby 1
sadd tag:ruby 2
sadd tag:web 2
sadd tag:erlang 3

//即屬於ruby又屬於web的書?
 inter_list = redis.sinter("tag.web", "tag:ruby") 
//即屬於ruby,但不屬於web的書?
 inter_list = redis.sdiff("tag.ruby", "tag:web") 
//屬於ruby和屬於web的書的合集?
 inter_list = redis.sunion("tag.ruby", "tag:web")

複製程式碼