1. 程式人生 > >Hbase入門(四)——表結構設計-RowKey

Hbase入門(四)——表結構設計-RowKey

Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。

建立

Hbase就是通過 表 Rowkey 列族 timestamp確定一行資料。

這與關係型資料庫完全不同:

屬性 HBase RDBMS
資料型別 只有字串 豐富的資料型別
資料操作 簡單的增刪改查 不支援join 各種函式和表連線
儲存模式 基於列式儲存 基於表格結構和行式儲存
資料保護 更新後仍然保留舊版本 替換
可伸縮性 輕易的增加節點,相容性高 需要中間層,犧牲功能

所以Hbase需要考慮的因素有:

1、這個表應該有多少列族

2、列族使用什麼資料

3、每個列族有多少列

4、列名是什麼

5、單元應該存放什麼資料

6、每個單元儲存多少時間版本

7、Rowkey結構是什麼,應該包含什麼資訊

需要注意的點:

1、Join

Hbase中沒有join 所以需要大表結構 行記錄加關鍵字 解決這個問題

2、Rowkey

Rowkey設計非常重要 由於Hbase是有序的 需要考慮字首字尾問題

可以通過Hbase Shell和 Java Api建立:

Configuration config = HBaseConfiguration.create();
Admin admin = new Admin(conf);
TableName table = TableName.valueOf("myTable");

admin.disableTable(table);

HColumnDescriptor cf1 = ...;
admin.addColumn(table, cf1);      // adding new ColumnFamily
HColumnDescriptor cf2 = ...;
admin.modifyColumn(table, cf2);    // modifying existing ColumnFamily

admin.enableTable(table);

Rowkey設計

Rowkey是不可分割的位元組陣列,按字典序儲存在表中。

由於:Region基於Rowkey為一個區間的行提供服務 HFile在硬碟上儲存有序的行 所以Rowkey就極大的影響了Hbase的效能。

Rowkey就是索引,如果不清楚Rowkey就只能掃描全表,那麼效能將會大幅度下降。

這裡用影片熱度排行榜舉例:

1、Rowkey是以字典序從大到小

原生Hbase只支援從小到大排序,要想實現從大到小,可以採用 Rowkey=Integer.MAX_VALUE-Rowkey的方式,在應用層再轉回來完成需求。

2、Rowkey儘量雜湊

Rowkey要儘量雜湊,這樣可以保證資料不在一個Region上,從而避免了讀寫的集中。

比如我們可以設計 userid_videoid 拼接字串 這樣的話user就會不均勻。

有三種辦法解決: 反轉userid 雜湊userid 將userid取模後進行MD5加密 取前6位加入userid中

3、Rowkey長度要儘量短

Rowkey過長,儲存開銷會大。

Rowkey過長,會導致記憶體的利用率降低,進而降低索引命中率。

列族

列族是一些列的集合,一個列族所有成員都有同樣的字首,比如courses:history 和 courses:math都是courses列族的成員。冒號是分隔符。列族字首必須是可輸出字元,列可由任意位元組陣列組成。

列族必須在表建立的時候宣告,列則不需要特別宣告,使用者隨時可以建立新列。

經驗法則:

  • 目標是把 region 的大小限制在 10 到 50 GB 之間。
  • 目標是限制 cell 的大小在 10 MB 之內,如果使用的是 mob型別,限制在 50 MB 之內。否則,考慮把 cell 的資料儲存在 HDFS 中,並在 HBase 中儲存指向該資料的指標。
  • 典型的 scheme 每張表包含 1 到 3 個列族。HBase 表設計不應當和 RDBMS 表設計類似。
  • 對於擁有 1 或 2 個列族的表來說,50-100 個 region 是比較合適的。請記住, region 是列族的連續段。
  • 保持列族名稱儘可能短。每個值都會儲存列族的名稱(忽略字首編碼)。它們不應該像典型 RDBMS 那樣,是自文件化,描述性的名稱。
  • 如果你正在儲存基於時間的機器資料或者日誌資訊,並且 row key 是基於裝置 ID 或者服務 ID + 時間,最終會出現這樣一種情況,即更舊的資料 region 永遠不會有額外寫入。在這種情況下,最終會存在少量的活動 region 和大量不會再有新寫入的 region。對於這種情況,可以接受更多的 region 數量,因為資源的消耗只取決於活動 region。
  • 如果只有一個列族會頻繁寫,那麼只讓這個列族佔用記憶體。當分配資源的時候注意寫入模式。

例項

店鋪與商品

店鋪shop 商品 item 是多對多的關係

RDBMS表結構設計:

商鋪表:

列名 列含義
id 主鍵
name 店鋪名稱
address 所在地
regdate 註冊日期

商品表:

列名 列含義
id 主鍵
name 商品名稱
price 價格
details 商品詳情
title 展示名稱

關係表:

列名 列含義
shop_id 店鋪主鍵
item_id 商品主鍵
type 關聯型別
Hbase表結構設計:

店鋪表:

商品表:

微博使用者與粉絲

使用者與粉絲是一對多

RDBMS表結構設計:

使用者表:

列名 列含義
id 主鍵
nickname 使用者名稱

粉絲對應表:

列名 列含義
user_id 使用者id
fans_id 粉絲id
Hbase表結構設計:

更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關注實時流式計算

相關推薦

Hbase入門()——結構設計-RowKey

Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。 建立 Hbase就是通過 表 Rowkey 列族 timestamp確定一行資料。 這與關係型資料庫完全不同: 屬性 HBase RDBMS

hbase結構設計研究

      因為一直在做hbase的應用層面的開發,所以體會的比較深的一點是hbase的表結構設計會對系統的效能以及開銷上造成很大的區別,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp幾個方面進行

Hbase結構設計

圖片來自HBase企業應用…書籍 1 模式建立 1.1 hbase模式結構 Hbase的模式結構包括表、RowKey、列族、Timestamp(時間版本)。其真實模式是一個三維有序結構,前面三個維度確定一行資料。 Hbase的

hbase結構設計研究(不斷更新)

      因為一直在做hbase的應用層面的開發,所以體會的比較深的一點是hbase的表結構設計會對系統的效能以及開銷上造成很大的區別,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp幾個方面進行一些分析。最後結合分析

結構設計器(EZDML)1.98版公布

導出 asp 每一個 fcm blog iss pl/sql 字符串 分享 表結構設計器(EZDML)是一個免費的數據庫建表的小軟件,可高速的進行數據庫表結構設計。建立數據模型,能迅速生成代碼模板、簡單界面和字典文檔,支持腳本編程。

通過Excel生成PowerDesigner結構設計

doc tables log ksh word 文件 aps 結構 image 說明:近期做部分表結構設計,在word裏設計調整好了,需要整理到PowerDesigner中,但是手工錄入太麻煩。 找了個工具(地址:http://www.cnblogs.com/hwaggLe

數據庫結構設計方法及原則

管理 鍵值 lar 存儲引擎 ota mvcc 外鍵關聯 列排序 搜索 http://www.cnblogs.com/RunForLove/p/5693986.html 數據庫設計的三大範式:為了建立冗余較小、結構合理的數據庫,設計數據庫時必須遵循一定的規則。在關系型數據庫

JavaWeb | 之 | 角色管理的結構設計和原理

添加 原理 com 數據庫表結構 效果 image 簡單 javaweb span 1, 根據實際工作的實際需要,不同的角色會有不同的權限,因此出現 角色管理,表結構總結如下: 首先:數據庫表結構: a.角色表: b.權限表: c.角

堡壘機結構設計

profile .com fun string ssh 設計 ble urn int 一、堡壘機表結構   二、創建表 # -*- coding: UTF-8 -*- from sqlalchemy.ext.declarative import declarat

項目總結---結構設計

庫存 訂單號 ont sql ice col 流水號 ren 順序 DROP TABLE IF EXISTS `mmall_user`; CREATE TABLE `mmall_user` ( `id` int(11) NOT NULL AUTO_INCREMENT

ofbiz數據庫結構設計(3)- 訂單ORDER

商品 用戶 div 方法 狀態 ofb anti rem 填充 對於訂單來說,主要的表就是ORDER_HEADER和ORDER_ITEM。ORDER_HEADER就是所謂的訂單頭,一條記錄代表一條訂單。ORDER_PAYMENT_PREFERENCE

PHP 站內消息的結構設計

位置 數據 全文檢索 mar 性能問題 設計 如果 處理 default 1)添加全站通知:信息存入到 tb_message 2)用戶點開信息或者設置信息為已閱讀:插入記錄到 tb_message_readlog 如何設計存儲的表?求最佳方案 CREATE TABLE `

博客系統需求分析和結構設計

con ont __str__ fields key rim spl etime foreign 一、項目流程 1、搞清楚需求(產品經理)   (1)基於用戶認證組件和Ajax實現登錄驗證(圖片驗證碼)   (2)基於forms組件和Ajax實現註冊功能   (3)

主機管理+堡壘機系統開發:結構設計

bsp http __str__ ipaddress color user del splay group 一、創建django項目和app web 二、主機表 1、主機表代碼: """存儲所有主機""" hostname = models.CharFi

系統資料字典結構設計

CREATE TABLE `g_sys_dict` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id', `pid` int(11) DEFAULT '0' COMMENT ' 父ID ', `data_type` varchar(50)

資料庫結構設計原則

先談談我這些年趟過的資料庫的坑: 同義多詞。例如:在訂單表中申請單號用appseetserialno,而在支付日誌表中用appno。 同詞多義。例如:渠道這個欄位,可以用channel表示,在委託表中表示請求的來源渠道,eg:安卓、IOS、官網;在支付日誌表中表示支付的

使用者畫像—計算使用者偏好標籤及資料指標與結構設計

一、使用者畫像—計算使用者偏好標籤 下面介紹如何計算使用者的偏好標籤。 在上一篇寫使用者畫像的文章 “使用者畫像—打使用者行為標籤”中,主要講了如何對使用者的每一次操作行為、業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品、內容的類目。 關於

三級聯動--結構設計

三級聯動作為一個非常鍛鍊新手的問題,經常被用來驗證同學們的學習效果,那麼今天我們就來講一講三級聯動的表結構設計 #刪除庫(如果資料庫db1存在) DROP DATABASE IF EXISTS db1; #建立utf8格式的資料庫db1(如果資料庫db1不存在) CREATE DATABASE

資料庫結構設計

資料庫:ads 資料庫模型類基類:BaseModel class BaseModel(models.Model):     """模型類基類"""     create_time = models.DateTimeField(auto_now_add=True, verb

Django之CRM專案-結構設計

1.展示客戶 模板的查詢順序: ​ 先找全域性的templates——》 按照app的註冊順序找templates中的檔案 使用admin新增資料: 建立超級使用者 python manage.py createsuperuser 在admin中註冊model