1. 程式人生 > >Redis數據結構之簡單動態字符串SDS

Redis數據結構之簡單動態字符串SDS

table 水平 printf 數組保存 二進制安全 時間復雜度 元素 skiplist 現在

Redis的底層數據結構非常多,其中包括SDS、ZipList、SkipList、LinkedList、HashTable、Intset等。如果你對Redis的理解還只停留在get、set的水平的話,是遠遠不足以應對面試提問的。本文簡單介紹了Redis底層最重要的數據結構 - 簡單動態字符串(SDS)

Redis使用C語言開發,但並沒有使用C語言傳統的字符串表示(以空字符結尾的字節數組,以下簡稱C字符串),而是自己構建了一種名為簡單動態字符串的(simple dynamic string,SDS)的抽象類型,並將SDS用作Redis的默認字符串表示。

在Redis裏面,C字符串只會作為字符串字面量(static literal)用在一些無須對字符串值進行修改的地方。當Redis需要的不僅僅是一個字符串字面量,而是一個可以被修改的字符串值時,Redis就會使用SDS來表示字符串值,比如在Redis的數據庫裏面,包含字符串的鍵值對在底層都是由SDS實現的。

咱們來舉個例子,如果在客戶端執行命令:

redis> SET msg "hello world"
ok

那麽Redis將在數據庫中創建一個新的鍵值對,其中:

  • 鍵值對的鍵是一個字符串對象,對象的底層實現是一個保存著字符串“msg”的SDS。
  • 鍵值對的值也是一個字符串對象,對象的底層實現是一個保存著字符串“hello world”的SDS。

除了用來保存數據庫中的字符串值之外,SDS還被用作緩沖區:AOF模塊中的AOF緩沖區,以及客戶端狀態中的輸入緩沖區,都是由SDS實現的。總之,SDS是Redis的最基礎也是最重要的數據結構。

1.SDS的定義

每個 sds.h/sdshdr 結構表示一個SDS值:

struct sdshdr{
    // 記錄buf數組中已使用字節的數量
    // 等於SDS所保存字符串的長度
    int len;
    
    // 記錄buf數組中未使用字節的數量
    int free;
    //字節數組,用於保存字符串
    char buf[];
}

用一張圖來表示:

技術分享圖片

SDS 遵循 C 字符串以空字符結尾的慣例, 保存空字符的 1字節空間不計算在 SDS 的 len 屬性裏面, 並且為空字符分配額外的 1 字節空間, 以及添加空字符到字符串末尾等操作都是由 SDS 函數自動完成的, 所以這個空字符對於 SDS 的使用者來說是完全透明的。

2.SDS與C字符串的區別

現在來說,C語言使用長度為N+1的字符數組來表示長度為N的字符串,並且字符數組的最後一個元素總是空字符“\0”。

C的這種簡單的字符串表達方式,並不能滿足Redis對字符串在安全性、效率以及功能方面的要求。具體有以下幾個方面。

2.1 常數復雜度獲取字符串長度

因為C字符串並不記錄字符串的長度信息,所以為了獲取一個C字符串的長度,程序必須遍歷整個字符串,對遇到的每個字符進行計數,直到遇到空字符為止,這個操作的復雜度為O(n)。而在Redis的SDS中,這個時間復雜度只有O(1)。

2.2 杜絕緩沖區溢出

除了獲取字符串長度的復雜度高之外,C字符不記錄自身長度帶來的另一個問題就是緩沖區溢出。舉個例子,C語言的 strcat 函數可以將字符串中的內容拼接到 dest 字符串的末尾,但是當字符串的容量不夠就會產生緩存區溢出,因為字符串也是基於數組實現的,也是有大小限制的。

Redis的SDS已經杜絕了這個問題,那它是如何解決的呢?

當API要對SDS進行修改時,API會先檢查SDS的空間是否滿足修改所需的空間,如果不夠的話,API會自動將SDS的空間進行擴容,然後才執行實際的修改操作。這就避免了緩沖區內存溢出。

2.3 減少修改字符串時帶來的內存重分配次數

上面說到了API會在修改SDS字符串時自動擴容,如果每次修改都伴隨著對字符串內的數組的內存重分配,那效率可想而知。所以Redis實現了空間預分配和惰性空間釋放兩種優化策略。

空間預分配

空間預分配用於優化SDS的字符串增長操作:當SDS的API對一個SDS進行修改,並且需要對SDS進行空間擴展的時候,程序不僅會為SDS分配修改所需要的空間,還會為SDS分配額外的未使用空間。

總的來說,額外分配的未使用空間數量大小有兩種可能:

  1. 如果對SDS修改之後,SDS的長度將小於1MB,那麽程序分配和len 屬性同樣大小的未使用空間,這時候SDS的 free 屬性的值將和 len 屬性的值相同。也就是說,該SDS字符串修改完後還有近一半的容量。
  2. 如果對SDS修改之後,SDS的長度大於等於1MB,那麽程序會分配1MB的未使用空間。這個是固定的。

通過空間預分配,Redis可以減少連續執行字符串操作所需的內存重分配次數。

惰性空間釋放

惰性空間釋放用於優化SDS的字符串縮短操作:當SDS的API需要縮短SDS保存的字符串時,程序並不立即使用內存重分配來回收縮短後多出來的字節,而是使用 free 屬性將這些字節的數量記錄起來,並等待將來使用。

2.4 二進制安全

在C語言中,字符串的存儲必須符合某種編碼(ASCII),並且字符串不能包含空字符,否則會被認為是字符串結尾。這些限制使得C字符串只能保存文本數據,而不能保存像圖片、音頻、視頻、壓縮文件這樣的二進制數據。

所以,為了解決C字符串的不足,Redis的 buf 數組保存的是二進制數據,這也就是把SDS的 buf 數組稱為字節數組的原因。

2.5 兼容部分C字符串函數

雖然 Redis 的API都是二進制安全的,但它們一樣遵循C字符串以空字符串結尾的慣例,這些API總會將SDS保存的數據的末尾設置為空字符,並且總會在為 buf 數組分配空間時多分配一個字節來容納這個空字符,這是為了讓那些保存文本數據的SDS可以重用一部分C的函數。

舉個例子, 如果我們有一個 SDS 的指針 s , 那麽我們可以直接使用 stdio.h/printf 函數, 通過執行以下語句:

printf("%s", s->buf);

來打印出 SDS 保存的字符串值 "Redis" , 而無須為 SDS 編寫專門的打印函數。

最後,臨近春節,祝大家新年快樂!

Redis數據結構之簡單動態字符串SDS