influxdb記憶體中Cache資料結構詳解

阿新 • • 發佈：2018-11-28

引:

前面TSM檔案格式解析（一到四）綜合分析了不同case下的TSM檔案格式，檔案格式已基本清楚。

寫入磁碟是如此格式，那在寫入磁碟之前的記憶體中是怎麼儲存的呢？

通過第一篇influxdb初探https://blog.csdn.net/jacicson1987/article/details/81986234，瞭解到記憶體中的資料是儲存在

DBStore中的某個shard裡，

每個shard有一個tsm engine

每一個tsm engine裡面有一個Cache

結構說明

type Cache struct {
	// Due to a bug in atomic  size needs to be the first word in the struct, as
	// that's the only place where you're guaranteed to be 64-bit aligned on a
	// 32 bit system. See: https://golang.org/pkg/sync/atomic/#pkg-note-BUG
	size         uint64
	snapshotSize uint64

	mu      sync.RWMutex
	store   storer
	maxSize uint64

	// snapshots are the cache objects that are currently being written to tsm files
	// they're kept in memory while flushing so they can be queried along with the cache.
	// they are read only and should never be modified
	snapshot     *Cache
	snapshotting bool

	// This number is the number of pending or failed WriteSnaphot attempts since the last successful one.
	snapshotAttempts int

	stats         *CacheStatistics
	lastSnapshot  time.Time
	lastWriteTime time.Time

	// A one time synchronization used to initial the cache with a store.  Since the store can allocate a
	// a large amount memory across shards, we lazily create it.
	initialize       atomic.Value
	initializedCount uint32
}

Cache裡面有一個store

資料就是存在這個store裡面。

Cache裡面還有一個snapshot，定時把store裡的資料複製到snapshot.store裡，然後store清空。

然後再把snapshot.store裡的內容寫入檔案。

那這個store裡到底是什麼結構呢？

store被初始化成一個含有16個partitions(節點)的ring。這個ring我稱之為偽一致性雜湊，因為它並沒有成環。

func (c *Cache) init() {
	if !atomic.CompareAndSwapUint32(&c.initializedCount, 0, 1) {
		return
	}

	c.mu.Lock()
	c.store, _ = newring(ringShards) // ringShards = 16
	c.mu.Unlock()
}

每一個partition都初始化成一個map，key是string, value是一個數組

func newring(n int) (*ring, error) {
	if n <= 0 || n > partitions {
		return nil, fmt.Errorf("invalid number of paritions: %d", n)
	}

	r := ring{
		partitions: make([]*partition, n), // maximum number of partitions.
	}

	// The trick here is to map N partitions to all points on the continuum,
	// such that the first eight bits of a given hash will map directly to one
	// of the N partitions.
	for i := 0; i < len(r.partitions); i++ {
		r.partitions[i] = &partition{        
			store: make(map[string]*entry),
		}
	}
	return &r, nil
}

通過跟蹤發現，這個map的key就是和TSM檔案結構裡面的key一致：measurement,tags#!~#field

而這個entry呢，是一組data，每個data由timestamp和value 兩個部分構成。

type FloatValue struct {
	unixnano int64
	value    float64
}

type StringValue struct {
	unixnano int64
	value    string
}

那key是怎麼對映到具體某個partition的呢

// getPartition retrieves the hash ring partition associated with the provided
// key.
func (r *ring) getPartition(key []byte) *partition {
	return r.partitions[int(xxhash.Sum64(key)%partitions)]
}

xxhash.sum64，再與partition的數量（16）求餘，得到下標，找到partition.

具體xxhash.sum64這個雜湊值怎麼計算的呢，以後在研究。

結構圖

現在已經知道了Cache中資料的儲存方式了，來張表更清楚一點

每次寫入同一個key的資料，那就找到其Entries, 把新的資料直接append到後面。

排序與去重

這樣就又有問題了，如果 timestamp舊的資料後來，那這一組資料的就不是按照timestamp的大小順序了。

這裡怎麼解決的呢，這裡並沒有解決，不管是來的更舊的timestamp的資料還是duplicated資料，統統加後面。

去重和排序在兩個地方做

1. select xx from xx的時候

2. snapshot寫入TSM檔案的時候

這個去重和排序程式碼如下，先檢查順序，需要的話就sort..最後檢查去重。

這個sort演算法有時間可以看看，應該是針對大部分都是按順序的情況下效率可以的排序。

// Deduplicate returns a new slice with any values that have the same timestamp removed.
// The Value that appears last in the slice is the one that is kept.  The returned
// Values are sorted if necessary.
func (a Values) Deduplicate() Values {
	if len(a) <= 1 {
		return a
	}

	// See if we're already sorted and deduped
	var needSort bool
	for i := 1; i < len(a); i++ {
		if a[i-1].UnixNano() >= a[i].UnixNano() {
			needSort = true
			break
		}
	}

	if !needSort {
		return a
	}

	sort.Stable(a)
	var i int
	for j := 1; j < len(a); j++ {
		v := a[j]
		if v.UnixNano() != a[i].UnixNano() {
			i++
		}
		a[i] = v

	}
	return a[:i+1]
}

小結：

由下至上，瞭解到寫入TSM檔案之前，資料在Cache中的儲存方式。

具體的查詢和寫入的邏輯這裡只涉及了一點點，其他的大部分包括如何分shard, 如何通過制定時間段獲得資料，如何索引到TSM檔案indexes等等還需要再研究。

influxdb記憶體中Cache資料結構詳解

引: 前面TSM檔案格式解析（一到四）綜合分析了不同case下的TSM檔案格式，檔案格式已基本清楚。寫入磁碟是如此格式，那在寫入磁碟之前的記憶體中是怎麼儲存的呢？通過第一篇influxdb初探https://blog.csdn.net/jacicson1987/article/det

java中的資料結構詳解

也許你已經熟練使用了java.util包裡面的各種資料結構，但是我還是要說一說java版資料結構與演算法，希望對你有幫助。線性表，連結串列，雜湊表是常用的資料結構，在進行Java開發時，JDK已經為我們提供了一系列相應的類來實現基本的資料結構。這些類均在java.ut

hashmap資料結構詳解（五）之HashMap、HashTable、ConcurrentHashMap 的區別

【hashmap 與 hashtable】 hashmap資料結構詳解（一）之基礎知識奠基 hashmap資料結構詳解（二）之走進JDK原始碼 hashmap資料結構詳解（三）之hashcode例項及大小是2的冪次方解釋 hashmap資料結構詳解（四）之has

Redis內部資料結構詳解——intset

本文是《Redis內部資料結構詳解》系列的第七篇。在本文中，我們圍繞一個Redis的內部資料結構——intset展開討論。 Redis裡面使用intset是為了實現集合(set)這種對外的資料結構。set結構類似於數學上的集合的概念，它包含的元素無序，且不能重複。Redis裡的set結構還實現了

Tire樹（字典樹）資料結構詳解（圖解）及模板

先在這裡放模板，具體圖解回去再發 #include <map> #include <queue> #include <cstdlib> #include <cm

資料結構有哪些，常用資料結構詳解

通過上節我們知道，資料結構是學習資料儲存方式的一門學科，那麼，資料儲存方式有哪幾種呢？本節將對資料結構的學習內容做一個簡要的總結。資料結構大致包含以下幾種儲存結構：線性表，還可細分為順序表、連結串列、棧和佇列；樹結構，包括普通樹，二叉樹，線索二叉樹等；圖儲存結構；下面對各種資料結構做詳

[轉]Redis內部資料結構詳解-sds

本文是《Redis內部資料結構詳解》系列的第二篇，講述Redis中使用最多的一個基礎資料結構：sds。不管在哪門程式語言當中，字串都幾乎是使用最多的資料結構。sds正是在Redis中被廣泛使用的字串結構，它的全稱是Simple Dynamic String。與其它語言環境中出現的字串相比，它具有如下顯著的

Redis內部資料結構詳解(1)——dict

如果你使用過Redis，一定會像我一樣對它的內部實現產生興趣。《Redis內部資料結構詳解》是我準備寫的一個系列，也是我個人對於之前研究Redis的一個階段性總結，著重講解Redis在記憶體中的資料結構實現（暫不涉及持久化的話題）。Redis本質上是一個數據結構伺服器（data st

Java資料結構詳解（十二）- HashMap

HashMap 基於雜湊表的 Map 介面的實現。此實現提供所有可選的對映操作，並允許使用 null 值和 null 鍵。（除了非同步和允許使用 null 之外，HashMap 類與 Hashtable 大致相同。）此類不保證對映的順序，特別是它不保證該順序恆

Java資料結構詳解（一）-Collection介面

Java資料結構-collection介面一，Collection介面結構圖 Collection介面詳解 collection是一個被高度抽象出來的介面、提供基本的操作資料的行為、屬性的定義. collection api介紹： p

Redis資料結構詳解之List（二）

Redis中關於List列表的命令詳解 1、redis中list列表的資料插入命令：lpush，rpush，linsert 127.0.0.1:6379>rpush mylist 1 ---結果為：(integer) 1 127.0.0.1:6379&g

第123講：Hadoop叢集管理之Namenode目錄元資料結構詳解學習筆記

第123講：Hadoop叢集管理之Namenode目錄元資料結構詳解學習筆記 hadoop-2.x的叢集管理與hadoop-1.x有很大不同 hdfs-site.xml： dfs.replication dfs.namenode.name.dir 存放namenode元資

Redis內部資料結構詳解之整數集合(intset)

整數集合簡介整數集合intset用於有序、無重複地儲存多個整數值，根據集合中元素的值自動選擇使用整數型別來儲存元素，例如：如果intset中絕對值最大的整數可以用int32_t來儲存，那麼整個

線段樹資料結構詳解與模板

線段樹是一個查詢和修改複雜度都為log(n)的資料結構。主要用於陣列的單點修改&&單點查詢&&區間求和&&區間修改. 另外一個擁有類似功能的是樹狀陣列，但是樹狀陣列最常用的是單點修改&&區間求和. 線

Redis資料結構詳解之Zset

Zset跟Set之間可以有並集運算，因為他們儲存的資料字串集合，不能有一樣的成員出現在一個zset中，但是為什麼有了set還要有zset呢？zset叫做有序集合，而set是無序的，zset怎麼做到有序的呢？就是zset的每一個成員都有一個分數與之對應，並且分數是

Redis內部資料結構詳解之字典(dict)

/* Expand or create the hash table */ int dictExpand(dict *d, unsigned long size) { dictht n; /* the new hash table */ unsigned long realsize = _di

Redis內部資料結構詳解(4)——ziplist

本文是《Redis內部資料結構詳解》系列的第四篇。在本文中，我們首先介紹一個新的Redis內部資料結構——ziplist，然後在文章後半部分我們會討論一下在robj, dict和ziplist的基礎上，Redis對外暴露的hash結構是怎樣構建起來的。我們在討論中還會

Redis內部資料結構詳解之簡單動態字串(sds)

本文所引用的原始碼全部來自Redis2.8.2版本。 Redis中簡單動態字串sds資料結構與API相關檔案是：sds.h, sds.c。預備知識下面介紹有關sizeof計算引數

樹狀陣列資料結構詳解與模板(可能是最詳細的了)

目錄單點更新: 區間查詢: 高階操作求逆序對操作原理查詢修改查詢修改樹狀陣列基礎樹狀陣列是一個查詢和修改複雜度都為log(n)的資料結構。主要用於陣列的單點修改&&區間求和

Redis資料結構詳解之Set（三）

序言在Redis中，Set和list都是字串序列，非常相似，不同之處在於Set是用雜湊表來保持字串的唯一性，沒有先後順序，不像list一樣，可以在首尾增刪資料。但是set也有自己的相應處理命令來完成對自己的操作。下面我們來看下Set的命令怎麼使用。操作單個set的

influxdb記憶體中Cache資料結構詳解

引:

結構說明

結構圖

排序與去重

小結：

相關推薦