極限存儲--歷史拉鏈表(上)

阿新 • • 發佈：2017-08-16

鏈表 upd 變化每次 alt 極限 nbsp 一份又能

在數據倉庫的數據模型設計過程中，經常會遇到這樣的需求：

1. 數據量比較大;
2. 表中的部分字段會被update,如用戶的地址，產品的描述信息，訂單的狀態等等;
3. 需要查看某一個時間點或者時間段的歷史快照信息，比如，查看某一個訂單在歷史某一個時間點的狀態，
比如，查看某一個用戶在過去某一段時間內，更新過幾次等等;
4. 變化的比例和頻率不是很大，比如，總共有1000萬的會員，每天新增和發生變化的有10萬左右;
5. 如果對這邊表每天都保留一份全量，那麽每次全量中會保存很多不變的信息，對存儲是極大的浪費;

拉鏈歷史表，既能滿足反應數據的歷史狀態，又可以最大程度的節省存儲;

舉個簡單例子，比如有一張訂單表,6月20號有3條記錄：

技術分享

到6月21日，表中有5條記錄：

技術分享

到6月22日，表中有6條記錄：

技術分享

數據倉庫中對該表的保留方法：

1. 只保留一份全量，則數據和6月22日的記錄一樣，如果需要查看6月21日訂單001的狀態，則無法滿足；

2. 每天都保留一份全量，則數據倉庫中的該表共有14條記錄，但好多記錄都是重復保存，沒有任務變化，如訂單002,004，數據量大了，會造成很大的存儲浪費；

如果在數據倉庫中設計成歷史拉鏈表保存該表，則會有下面這樣一張表：

技術分享

說明：

1. dw_begin_date表示該條記錄的生命周期開始時間，dw_end_date表示該條記錄的生命周期結束時間；

2. dw_end_date = ‘9999-12-31‘表示該條記錄目前處於有效狀態；

3. 如果查詢當前所有有效的記錄，則select * from order_his where dw_end_date = ‘9999-12-31‘

4. 如果查詢2012-06-21的歷史快照，則select * from order_his where dw_begin_date <= ‘2012-06-21‘ and end_date >= ‘2012-06-21‘，這條語句會查詢到以下記錄：技術分享

和源表在6月21日的記錄完全一致：

技術分享

可以看出，這樣的歷史拉鏈表，既能滿足對歷史數據的需求，又能很大程度的節省存儲資源；

極限存儲--歷史拉鏈表(上)

鏈表 upd 變化每次 alt 極限 nbsp 一份又能在數據倉庫的數據模型設計過程中，經常會遇到這樣的需求： 1. 數據量比較大;2. 表中的部分字段會被update,如用戶的地址，產品的描述信息，訂單的狀態等等;3. 需要查看某一個時間點或者時間段的歷史快照信息，

極限存儲--歷史拉鏈表(上)

極限存儲--歷史拉鏈表(上)

數據結構之線性表代碼實現順序存儲，鏈式存儲，靜態鏈表（選自大話數據結構）

主體拉鏈表存儲過程

C++實現線性表的鏈接存儲結構（單鏈表）

數據結構（四）——基於鏈式存儲結構的線性表

圖片上傳存儲獲得外鏈方法

python簡單模擬：把樹存儲在數據表中

【Python算法】哈希存儲、哈希表、散列表原理

線性表的順序存儲結構之順序表類的實現_Java

mysql 存儲過程實現搬表

基於hive的拉鏈表設計實現

數據結構（三）——基於順序存儲結構的線性表

SQL Server如何存儲特殊字符、上標、下標

圖 - 存儲結構之鄰接表

【存儲過程】用SQL語句獲得一個存儲過程返回的表

148 Sort List 鏈表上的歸並排序和快速排序

拉鏈表流水表

mysql存儲過程批量向表插入數據

【每日一學】數據倉庫之全量表、增量表、拉鏈表、流水表

c語言作用域、存儲期、鏈接屬性匯總

極限存儲--歷史拉鏈表(上)

相關推薦