Leveldb原始碼分析--8

阿新 • • 發佈：2019-01-15

6 SSTable之2

6.4 建立sstable檔案

瞭解了sstable檔案的儲存格式，以及Data Block的組織，下面就可以分析如何建立sstable檔案了。相關程式碼在table_builder.h/.cc以及block_builder.h/.cc（構建Block）中。

6.4.1 TableBuilder類

構建sstable檔案的類是TableBuilder，該類提供了幾個有限的方法可以用來新增k/v對，Flush到檔案中等等，它依賴於BlockBuilder來構建Block。

TableBuilder的幾個介面說明下：

> void Add(const Slice& key, const Slice& value)，向當前正在構建的表新增新的{key, value}對，要求根據Option指定的Comparator，key必須位於所有前面新增的key之後；

> void Flush()，將當前快取的k/v全部flush到檔案中，一個高階方法，大部分的client不需要直接呼叫該方法；

> void Finish()，結束表的構建，該方法被呼叫後，將不再會使用傳入的WritableFile；

> void Abandon()，結束表的構建，並丟棄當前快取的內容，該方法被呼叫後，將不再會使用傳入的WritableFile；【只是設定closed為true，無其他操作】

一旦Finish()/Abandon()方法被呼叫，將不能再次執行Flush或者Add操作。

下面來看看涉及到的類，如圖6.3-1所示。

圖6.3-1

其中WritableFile和op log一樣，使用的都是記憶體對映檔案。Options是一些呼叫者可設定的選項。

TableBuilder只有一個成員變數Rep* rep_，實際上Rep結構體的成員就是TableBuilder所有的成員變數；這樣做的目的，可能是為了隱藏其內部細節。Rep的定義也是在.cc檔案中，對外是透明的。

簡單解釋下成員的含義：

Options options; // data block的選項
Options index_block_options; // index block的選項
WritableFile* file; // sstable檔案
uint64_t offset; // 要寫入data block在sstable檔案中的偏移，初始0
Status status; //當前狀態-初始ok
BlockBuilder data_block; //當前操作的data block
BlockBuilder index_block; // sstable的index block
std::string last_key; //當前data block最後的k/v對的key
int64_t num_entries; //當前data block的個數，初始0
bool closed; //呼叫了Finish() or Abandon()，初始false
FilterBlockBuilder*filter_block; //根據filter資料快速定位key是否在block中
bool pending_index_entry; //見下面的Add函式，初始false
BlockHandle pending_handle; //新增到index block的data block的資訊
std::string compressed_output;//壓縮後的data block，臨時儲存，寫入後即被清空

Filter block是儲存的過濾器資訊，它會儲存{key, 對應data block在sstable的偏移值}，不一定是完全精確的，以快速定位給定key是否在data block中。

下面分析如何向sstable中新增k/v對，建立並持久化sstable。其它函式都比較簡單，略過。另外對於Abandon，簡單設定closed=true即返回。

6.4.2 新增k/v對

這是通過方法Add(constSlice& key, const Slice& value)完成的，沒有返回值。下面分析下函式的邏輯：

S1 首先保證檔案沒有close，也就是沒有呼叫過Finish/Abandon，以及保證當前status是ok的；如果當前有快取的kv對，保證新加入的key是最大的。

Rep* r = rep_;
assert(!r->closed);
if (!ok()) return;
if (r->num_entries > 0) {
assert(r->options.comparator->Compare(key, Slice(r->last_key))> 0);
}

S2 如果標記r->pending_index_entry為true，表明遇到下一個data block的第一個k/v，根據key調整r->last_key，這是通過Comparator的FindShortestSeparator完成的。

if (r->pending_index_entry) {
assert(r->data_block.empty());
r->options.comparator->FindShortestSeparator(&r->last_key,key);
std::string handle_encoding;
r->pending_handle.EncodeTo(&handle_encoding);
r->index_block.Add(r->last_key, Slice(handle_encoding));
r->pending_index_entry =false;
}

接下來將pending_handle加入到index block中{r->last_key, r->pending_handle’sstring}。最後將r->pending_index_entry設定為false。

值得講講pending_index_entry這個標記的意義，見程式碼註釋：

直到遇到下一個databock的第一個key時，我們才為上一個datablock生成index entry，這樣的好處是：可以為index使用較短的key；比如上一個data block最後一個k/v的key是"the quick brown fox"，其後繼data block的第一個key是"the who"，我們就可以用一個較短的字串"the r"作為上一個data block的index block entry的key。

簡而言之，就是在開始下一個datablock時，Leveldb才將上一個data block加入到index block中。標記pending_index_entry就是幹這個用的，對應data block的index entry資訊就儲存在（BlockHandle）pending_handle。

S3 如果filter_block不為空，就把key加入到filter_block中。

if (r->filter_block != NULL) {
r->filter_block->AddKey(key);
}

S4 設定r->last_key = key，將(key, value)新增到r->data_block中，並更新entry數。

r->last_key.assign(key.data(), key.size());
r->num_entries++;
r->data_block.Add(key,value);

S5 如果data block的個數超過限制，就立刻Flush到檔案中。

const size_testimated_block_size = r->data_block.CurrentSizeEstimate();
if (estimated_block_size >=r->options.block_size) Flush();

6.4.3 Flush檔案

該函式邏輯比較簡單，直接見程式碼如下：

Rep* r = rep_;
assert(!r->closed); // 首先保證未關閉，且狀態ok
if (!ok()) return;
if (r->data_block.empty())return; // data block是空的
// 保證pending_index_entry為false，即data block的Add已經完成
assert(!r->pending_index_entry);
// 寫入data block，並設定其index entry資訊—BlockHandle物件
WriteBlock(&r->data_block, &r->pending_handle);
//寫入成功，則Flush檔案，並設定r->pending_index_entry為true，
//以根據下一個data block的first key調整index entry的key—即r->last_key
if (ok()) {
r->pending_index_entry =true;
r->status =r->file->Flush();
}
if (r->filter_block != NULL){ //將data block在sstable中的便宜加入到filter block中
r->filter_block->StartBlock(r->offset); // 並指明開始新的data block
}

6.4.4 WriteBlock函式

在Flush檔案時，會呼叫WriteBlock函式將data block寫入到檔案中，該函式同時還設定data block的index entry資訊。原型為：

void WriteBlock(BlockBuilder* block, BlockHandle* handle)

該函式做些預處理工作，序列化要寫入的data block，根據需要壓縮資料，真正的寫入邏輯是在WriteRawBlock函式中。下面分析該函式的處理邏輯。

S1 獲得block的序列化資料Slice，根據配置引數決定是否壓縮，以及根據壓縮格式壓縮資料內容。對於Snappy壓縮，如果壓縮率太低<12.5%，還是作為未壓縮內容儲存。

BlockBuilder的Finish()函式將data block的資料序列化成一個Slice。

Rep* r = rep_;
Slice raw = block->Finish(); // 獲得data block的序列化字串
Slice block_contents;
CompressionType type =r->options.compression;
switch (type) {
case kNoCompression: block_contents= raw; break; // 不壓縮
case kSnappyCompression: { // snappy壓縮格式
std::string* compressed =&r->compressed_output;
if(port::Snappy_Compress(raw.data(), raw.size(), compressed) &&
compressed->size()< raw.size() - (raw.size() / 8u)) {
block_contents =*compressed;
} else { // 如果不支援Snappy，或者壓縮率低於12.5%，依然當作不壓縮儲存
block_contents = raw;
type = kNoCompression;
}
break;
}
}

S2 將data內容寫入到檔案，並重置block成初始化狀態，清空compressedoutput。

WriteRawBlock(block_contents,type, handle);
r->compressed_output.clear();
block->Reset();

6.4.5 WriteRawBlock函式

在WriteBlock把準備工作都做好後，就可以寫入到sstable檔案中了。來看函式原型：

void WriteRawBlock(const Slice& data, CompressionType, BlockHandle*handle);

函式邏輯很簡單，見程式碼。

Rep* r = rep_;
handle->set_offset(r->offset); // 為index設定data block的handle資訊
handle->set_size(block_contents.size());
nbsp;r->status =r->file->Append(block_contents); // 寫入data block內容
if (r->status.ok()) {// 寫入1byte的type和4bytes的crc32
chartrailer[kBlockTrailerSize];
trailer[0] = type;
uint32_t crc = crc32c::Value(block_contents.data(),block_contents.size());
crc = crc32c::Extend(crc, trailer, 1); // Extend crc tocover block type
EncodeFixed32(trailer+1, crc32c::Mask(crc));
r->status =r->file->Append(Slice(trailer, kBlockTrailerSize));
if (r->status.ok()) { // 寫入成功更新offset-下一個data block的寫入偏移
r->offset +=block_contents.size() + kBlockTrailerSize;
}
}

6.4.6 Finish函式

呼叫Finish函式，表明呼叫者將所有已經新增的k/v對持久化到sstable，並關閉sstable檔案。

該函式邏輯很清晰，可分為5部分。

S1 首先呼叫Flush，寫入最後的一塊data block，然後設定關閉標誌closed=true。表明該sstable已經關閉，不能再新增k/v對。

Rep* r = rep_;
Flush();
assert(!r->closed);
r->closed = true;

BlockHandle filter_block_handle,metaindex_block_handle, index_block_handle;

S2 寫入filter block到檔案中

if (ok() &&r->filter_block != NULL) {
WriteRawBlock(r->filter_block->Finish(), kNoCompression,&filter_block_handle);
}

S3 寫入meta index block到檔案中

如果filterblock不為NULL，則加入從"filter.Name"到filter data位置的對映。通過meta index block，可以根據filter名字快速定位到filter的資料區。

if (ok()) {
BlockBuildermeta_index_block(&r->options);
if (r->filter_block !=NULL) {
//加入從"filter.Name"到filter data位置的對映
std::string key ="filter.";
key.append(r->options.filter_policy->Name());
std::string handle_encoding;
filter_block_handle.EncodeTo(&handle_encoding);
meta_index_block.Add(key,handle_encoding);
}
// TODO(postrelease): Add stats and other metablocks
WriteBlock(&meta_index_block, &metaindex_block_handle);
}

S4 寫入index block，如果成功Flush過data block，那麼需要為最後一塊data block設定index block，並加入到index block中。

if (ok()) {
if (r->pending_index_entry){ // Flush時會被設定為true
r->options.comparator->FindShortSuccessor(&r->last_key);
std::string handle_encoding;
r->pending_handle.EncodeTo(&handle_encoding);
r->index_block.Add(r->last_key, Slice(handle_encoding)); // 加入到index block中
r->pending_index_entry =false;
}
WriteBlock(&r->index_block, &index_block_handle);
}

S5 寫入Footer。

if (ok()) {
Footer footer;
footer.set_metaindex_handle(metaindex_block_handle);
footer.set_index_handle(index_block_handle);
std::string footer_encoding;
footer.EncodeTo(&footer_encoding);
r->status =r->file->Append(footer_encoding);
if (r->status.ok()) {
r->offset +=footer_encoding.size();
}
}

整個寫入流程就分析完了，對於Datablock和Filter Block的操作將在Data block和Filter Block中單獨分析，下面的讀取相同。

Leveldb原始碼分析--8

6 SSTable之2

6.4 建立sstable檔案

6.4.1 TableBuilder類

6.4.2 新增k/v對

6.4.3 Flush檔案

6.4.4 WriteBlock函式

6.4.5 WriteRawBlock函式

6.4.6 Finish函式

Leveldb原始碼分析--8

elasticSearch6原始碼分析(8)RepositoriesModule模組

janusgraph原始碼分析8-底層互動

以太坊之LevelDB原始碼分析

LevelDB原始碼分析之九：env

Android 7.0 Gallery相簿原始碼分析8

Leveldb原始碼分析--1

LevelDB原始碼分析1-基礎

leveldb原始碼分析之sst檔案格式

leveldb原始碼分析4：SkipList

Leveldb原始碼分析--20

LevelDB原始碼分析之六：skiplist（2）

dubbo原始碼分析8 -- DubboProtocol 之提供端釋出服務export

LevelDB原始碼分析之一：coding

ffdshow 原始碼分析 8：視訊解碼器類（TvideoCodecDec）

RTMPdump（libRTMP）原始碼分析 8：傳送訊息（Message）

lucene原始碼分析---8

leveldb原始碼分析——leveldb層次結構

二，leveldb原始碼分析（status）

Leveldb原始碼分析--9

Leveldb原始碼分析--8

6 SSTable之2

6.4 建立sstable檔案

6.4.1 TableBuilder類

6.4.2 新增k/v對

6.4.3 Flush檔案

6.4.4 WriteBlock函式

6.4.5 WriteRawBlock函式

6.4.6 Finish函式

相關推薦