Hbase入門(四)——表結構設計-RowKey
Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。
建立
Hbase就是通過 表 Rowkey 列族 timestamp確定一行資料。
這與關係型資料庫完全不同:
屬性 | HBase | RDBMS |
---|---|---|
資料型別 | 只有字串 | 豐富的資料型別 |
資料操作 | 簡單的增刪改查 不支援join | 各種函式和表連線 |
儲存模式 | 基於列式儲存 | 基於表格結構和行式儲存 |
資料保護 | 更新後仍然保留舊版本 | 替換 |
可伸縮性 | 輕易的增加節點,相容性高 | 需要中間層,犧牲功能 |
所以Hbase需要考慮的因素有:
1、這個表應該有多少列族
2、列族使用什麼資料
3、每個列族有多少列
4、列名是什麼
5、單元應該存放什麼資料
6、每個單元儲存多少時間版本
7、Rowkey結構是什麼,應該包含什麼資訊
需要注意的點:
1、Join
Hbase中沒有join 所以需要大表結構 行記錄加關鍵字 解決這個問題
2、Rowkey
Rowkey設計非常重要 由於Hbase是有序的 需要考慮字首字尾問題
可以通過Hbase Shell和 Java Api建立:
Configuration config = HBaseConfiguration.create(); Admin admin = new Admin(conf); TableName table = TableName.valueOf("myTable"); admin.disableTable(table); HColumnDescriptor cf1 = ...; admin.addColumn(table, cf1); // adding new ColumnFamily HColumnDescriptor cf2 = ...; admin.modifyColumn(table, cf2); // modifying existing ColumnFamily admin.enableTable(table);
Rowkey設計
Rowkey是不可分割的位元組陣列,按字典序儲存在表中。
由於:Region基於Rowkey為一個區間的行提供服務 HFile在硬碟上儲存有序的行 所以Rowkey就極大的影響了Hbase的效能。
Rowkey就是索引,如果不清楚Rowkey就只能掃描全表,那麼效能將會大幅度下降。
這裡用影片熱度排行榜舉例:
1、Rowkey是以字典序從大到小
原生Hbase只支援從小到大排序,要想實現從大到小,可以採用 Rowkey=Integer.MAX_VALUE-Rowkey的方式,在應用層再轉回來完成需求。
2、Rowkey儘量雜湊
Rowkey要儘量雜湊,這樣可以保證資料不在一個Region上,從而避免了讀寫的集中。
比如我們可以設計 userid_videoid 拼接字串 這樣的話user就會不均勻。
有三種辦法解決: 反轉userid 雜湊userid 將userid取模後進行MD5加密 取前6位加入userid中
3、Rowkey長度要儘量短
Rowkey過長,儲存開銷會大。
Rowkey過長,會導致記憶體的利用率降低,進而降低索引命中率。
列族
列族是一些列的集合,一個列族所有成員都有同樣的字首,比如courses:history 和 courses:math都是courses列族的成員。冒號是分隔符。列族字首必須是可輸出字元,列可由任意位元組陣列組成。
列族必須在表建立的時候宣告,列則不需要特別宣告,使用者隨時可以建立新列。
經驗法則:
- 目標是把 region 的大小限制在 10 到 50 GB 之間。
- 目標是限制 cell 的大小在 10 MB 之內,如果使用的是 mob型別,限制在 50 MB 之內。否則,考慮把 cell 的資料儲存在 HDFS 中,並在 HBase 中儲存指向該資料的指標。
- 典型的 scheme 每張表包含 1 到 3 個列族。HBase 表設計不應當和 RDBMS 表設計類似。
- 對於擁有 1 或 2 個列族的表來說,50-100 個 region 是比較合適的。請記住, region 是列族的連續段。
- 保持列族名稱儘可能短。每個值都會儲存列族的名稱(忽略字首編碼)。它們不應該像典型 RDBMS 那樣,是自文件化,描述性的名稱。
- 如果你正在儲存基於時間的機器資料或者日誌資訊,並且 row key 是基於裝置 ID 或者服務 ID + 時間,最終會出現這樣一種情況,即更舊的資料 region 永遠不會有額外寫入。在這種情況下,最終會存在少量的活動 region 和大量不會再有新寫入的 region。對於這種情況,可以接受更多的 region 數量,因為資源的消耗只取決於活動 region。
- 如果只有一個列族會頻繁寫,那麼只讓這個列族佔用記憶體。當分配資源的時候注意寫入模式。
例項
店鋪與商品
店鋪shop 商品 item 是多對多的關係
RDBMS表結構設計:
商鋪表:
列名 | 列含義 |
---|---|
id | 主鍵 |
name | 店鋪名稱 |
address | 所在地 |
regdate | 註冊日期 |
商品表:
列名 | 列含義 |
---|---|
id | 主鍵 |
name | 商品名稱 |
price | 價格 |
details | 商品詳情 |
title | 展示名稱 |
關係表:
列名 | 列含義 |
---|---|
shop_id | 店鋪主鍵 |
item_id | 商品主鍵 |
type | 關聯型別 |
Hbase表結構設計:
店鋪表:
商品表:
微博使用者與粉絲
使用者與粉絲是一對多
RDBMS表結構設計:
使用者表:
列名 | 列含義 |
---|---|
id | 主鍵 |
nickname | 使用者名稱 |
粉絲對應表:
列名 | 列含義 |
---|---|
user_id | 使用者id |
fans_id | 粉絲id |
Hbase表結構設計:
更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關注實時流式計算
相關推薦
Hbase入門(四)——表結構設計-RowKey
Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。 建立 Hbase就是通過 表 Rowkey 列族 timestamp確定一行資料。 這與關係型資料庫完全不同: 屬性 HBase RDBMS
hbase表結構設計研究
因為一直在做hbase的應用層面的開發,所以體會的比較深的一點是hbase的表結構設計會對系統的效能以及開銷上造成很大的區別,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp幾個方面進行
Hbase表結構設計
圖片來自HBase企業應用…書籍 1 模式建立 1.1 hbase模式結構 Hbase的模式結構包括表、RowKey、列族、Timestamp(時間版本)。其真實模式是一個三維有序結構,前面三個維度確定一行資料。 Hbase的
hbase表結構設計研究(不斷更新)
因為一直在做hbase的應用層面的開發,所以體會的比較深的一點是hbase的表結構設計會對系統的效能以及開銷上造成很大的區別,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp幾個方面進行一些分析。最後結合分析
表結構設計器(EZDML)1.98版公布
導出 asp 每一個 fcm blog iss pl/sql 字符串 分享 表結構設計器(EZDML)是一個免費的數據庫建表的小軟件,可高速的進行數據庫表結構設計。建立數據模型,能迅速生成代碼模板、簡單界面和字典文檔,支持腳本編程。
通過Excel生成PowerDesigner表結構設計
doc tables log ksh word 文件 aps 結構 image 說明:近期做部分表結構設計,在word裏設計調整好了,需要整理到PowerDesigner中,但是手工錄入太麻煩。 找了個工具(地址:http://www.cnblogs.com/hwaggLe
數據庫表結構設計方法及原則
管理 鍵值 lar 存儲引擎 ota mvcc 外鍵關聯 列排序 搜索 http://www.cnblogs.com/RunForLove/p/5693986.html 數據庫設計的三大範式:為了建立冗余較小、結構合理的數據庫,設計數據庫時必須遵循一定的規則。在關系型數據庫
JavaWeb | 之 | 角色管理的表結構設計和原理
添加 原理 com 數據庫表結構 效果 image 簡單 javaweb span 1, 根據實際工作的實際需要,不同的角色會有不同的權限,因此出現 角色管理,表結構總結如下: 首先:數據庫表結構: a.角色表: b.權限表: c.角
堡壘機表結構設計
profile .com fun string ssh 設計 ble urn int 一、堡壘機表結構 二、創建表 # -*- coding: UTF-8 -*- from sqlalchemy.ext.declarative import declarat
項目總結---表結構設計
庫存 訂單號 ont sql ice col 流水號 ren 順序 DROP TABLE IF EXISTS `mmall_user`; CREATE TABLE `mmall_user` ( `id` int(11) NOT NULL AUTO_INCREMENT
ofbiz數據庫表結構設計(3)- 訂單ORDER
商品 用戶 div 方法 狀態 ofb anti rem 填充 對於訂單來說,主要的表就是ORDER_HEADER和ORDER_ITEM。ORDER_HEADER就是所謂的訂單頭,一條記錄代表一條訂單。ORDER_PAYMENT_PREFERENCE
PHP 站內消息的表結構設計
位置 數據 全文檢索 mar 性能問題 設計 如果 處理 default 1)添加全站通知:信息存入到 tb_message 2)用戶點開信息或者設置信息為已閱讀:插入記錄到 tb_message_readlog 如何設計存儲的表?求最佳方案 CREATE TABLE `
博客系統需求分析和表結構設計
con ont __str__ fields key rim spl etime foreign 一、項目流程 1、搞清楚需求(產品經理) (1)基於用戶認證組件和Ajax實現登錄驗證(圖片驗證碼) (2)基於forms組件和Ajax實現註冊功能 (3)
主機管理+堡壘機系統開發:表結構設計
bsp http __str__ ipaddress color user del splay group 一、創建django項目和app web 二、主機表 1、主機表代碼: """存儲所有主機""" hostname = models.CharFi
系統資料字典表結構設計
CREATE TABLE `g_sys_dict` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id', `pid` int(11) DEFAULT '0' COMMENT ' 父ID ', `data_type` varchar(50)
資料庫表結構設計原則
先談談我這些年趟過的資料庫的坑: 同義多詞。例如:在訂單表中申請單號用appseetserialno,而在支付日誌表中用appno。 同詞多義。例如:渠道這個欄位,可以用channel表示,在委託表中表示請求的來源渠道,eg:安卓、IOS、官網;在支付日誌表中表示支付的
使用者畫像—計算使用者偏好標籤及資料指標與表結構設計
一、使用者畫像—計算使用者偏好標籤 下面介紹如何計算使用者的偏好標籤。 在上一篇寫使用者畫像的文章 “使用者畫像—打使用者行為標籤”中,主要講了如何對使用者的每一次操作行為、業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品、內容的類目。 關於
三級聯動--表結構設計
三級聯動作為一個非常鍛鍊新手的問題,經常被用來驗證同學們的學習效果,那麼今天我們就來講一講三級聯動的表結構設計 #刪除庫(如果資料庫db1存在) DROP DATABASE IF EXISTS db1; #建立utf8格式的資料庫db1(如果資料庫db1不存在) CREATE DATABASE
資料庫表結構設計
資料庫:ads 資料庫模型類基類:BaseModel class BaseModel(models.Model): """模型類基類""" create_time = models.DateTimeField(auto_now_add=True, verb
Django之CRM專案-表結構設計
1.展示客戶 模板的查詢順序: 先找全域性的templates——》 按照app的註冊順序找templates中的檔案 使用admin新增資料: 建立超級使用者 python manage.py createsuperuser 在admin中註冊model