Hbase入門(三)——資料模型
Hbase最核心但也是最難理解的就是資料模型,由於與傳統的關係型資料庫不同,雖然Hbase也有表(Table),也有行(Row)和列(Column),但是與關係型資料庫不同的是Hbase有一個列族(Column Family)的概念,它將一列或者多列組織在一起,HBase必須屬於某一個列族。
行和列交叉點稱為單元格(Cell),單元格時版本化的。單元格的內容,也就是列的值是不可分割的位元組陣列。
HBase沒有資料型別,任何列值都被轉換成位元組陣列進行儲存。
HBase表中的行是通過行鍵(Rowkey)進行區分的。行鍵也是用來唯一確定一行的標識。
HBase中的行按Rowkey排序,排序方式採用字典順序。
這些都是HBase的邏輯結果,他的物理結構也和傳統關係型資料庫有很大不同。
邏輯模型
HBase的邏輯模型源自Google的BigTable模型。可以理解為一個稀疏的,長期儲存的,多維度的和排序的對映表。
以下示例是 BigTable 論文第 2 頁上的一個略微修改的形式。有一個名為webtable
的表包含兩行(com.cnn.www
和com.example.www
)和三個列族,名為contents
,anchor
和people
。
在此示例中,對於第一行(com.cnn.www
),anchor
包含兩列(anchor:cssnsi.com
,anchor:my.look.ca
),contents
contents:html
)。此示例包含具有行鍵com.cnn.www
的行的 5 個版本,以及具有行鍵com.example.www
的行的一個版本。 contents:html
列限定符包含給定網站的整個HTML。 anchor
列族的限定符每個都包含指向該行所代表的站點的外部站點的連結,以及它在其連結的anchor
中使用的文字。 people
列系列表示與該站點關聯的人員。
此表中看起來為空的單元格在 HBase 中不佔用空間,或實際上不存在。這就是HBase“稀疏”的原因。表格檢視不是檢視 HBase 中資料的唯一方法,甚至也不是最準確的方法。以下表示與多維對映相同的資訊。這只是一個出於演示目的的模型,可能並不完全準確。
{
"com.cnn.www": {
contents: {
t6: contents:html: "<html>..."
t5: contents:html: "<html>..."
t3: contents:html: "<html>..."
}
anchor: {
t9: anchor:cnnsi.com = "CNN"
t8: anchor:my.look.ca = "CNN.com"
}
people: {}
}
"com.example.www": {
contents: {
t5: contents:html: "<html>..."
}
anchor: {}
people: {
t5: people:author: "John Doe"
}
}
}
物理模型
雖然Hbase表可以看作一組稀疏的行,但在物理意義上它們是按照列族儲存的。所以列是可以隨時新增的。
Hbase是面向列的,存放行的不同列的物理檔案,一個列族存放在多個HFile中,最重要的是一個列族的資料會被同一個Region管理。
空單元格不佔據物理儲存空間。因此,在時間戳t8
處對contents:html
列的值的請求將不返回任何值。類似地,在時間戳t9
處對anchor:my.look.ca
值的請求將不返回任何值。但是,如果未提供時間戳,則將返回特定列的最新值。給定多個版本,最新版本也是第一個版本,因為時間戳按降序儲存。因此,如果沒有指定時間戳,則對行com.cnn.www
中所有列的值的請求將是:來自時間戳t6
的contents:html
的值,來自時間戳t9
的anchor:cnnsi.com
的值,來自時間戳t8
的anchor:my.look.ca
。
資料模型操作
四個主要的資料模型操作是 Get,Put,Scan 和 Delete。通過例項化Table進行操作。
版本問題: Rowkey、Column(列族和列)、Version組合在一起稱為Hbase中的一個單元格。
Rowkey和Column的值是用位元組陣列表示的,Version則是用一個長整型表示的。
Get
操作返回指定行的屬性,Get是在Scan基礎上實現的。在預設情況下,如果沒有指定版本,一旦使用Get操作,會返回最近版本的Cell。
要返回多個版本,需要設定Get.setMaxVersions()
要返回最新版本以外的其他版本,請參見 Get.setTimeRange()
預設版本Get示例
public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR); // returns current version of value
給定版本的Get示例
public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
get.setMaxVersions(3); // will return last 3 versions of row
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR); // returns current version of value
List<KeyValue> kv = r.getColumn(CF, ATTR); // returns all versions of this column
PUT
執行 put 總是在某個時間戳建立cell
的新版本。預設情況下,系統使用伺服器的currentTimeMillis
,但您可以在針對每一列指定版本(=長整數)。這意味著您可以在過去或將來指定時間,或者將long值用於非時間目的。
隱式版本示例
HBase 將使用當前時間隱式地對以下 Put 進行版本控制。
public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put(Bytes.toBytes(row));
put.add(CF, ATTR, Bytes.toBytes( data));
table.put(put);
顯式版本示例
public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put( Bytes.toBytes(row));
long explicitTimeInMs = 555; // just an example
put.add(CF, ATTR, explicitTimeInMs, Bytes.toBytes(data));
table.put(put);
DELETE
刪除通過 Table.delete]執行。
有三種不同型別的內部刪除標記。
- 刪除:對於特定版本的列。
- 刪除列:適用於列的所有版本。
- 刪除系列:適用於特定 ColumnFamily 的所有列
SCAN
掃描表
下面是對錶進行掃描的示例。假設一個表填充了具有鍵“row1”,“row2”,“row3”的行,然後另一組是具有鍵“abc1”,“abc2”和“abc3”的行。以下示例將展示如何設定 Scan 例項以返回以“row”開頭的行。
public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Table table = ... // instantiate a Table instance
Scan scan = new Scan();
scan.addColumn(CF, ATTR);
scan.setRowPrefixFilter(Bytes.toBytes("row"));
ResultScanner rs = table.getScanner(scan);
try {
for (Result r = rs.next(); r != null; r = rs.next()) {
// process result...
}
} finally {
rs.close(); // always close the ResultScanner!
}
更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關注實時流式計算
相關推薦
Hbase入門(三)——資料模型
Hbase最核心但也是最難理解的就是資料模型,由於與傳統的關係型資料庫不同,雖然Hbase也有表(Table),也有行(Row)和列(Column),但是與關係型資料庫不同的是Hbase有一個列族(Column Family)的概念,它將一列或者多列組織在一起,HBase必須屬於某一個列族。 行和列交叉點
JavaScript-D3入門三-資料繫結
csv資料繫結 <html> <head> <meta http-equiv="X-UA-Compatible" content="IE=edge" /> <title>測試D3_v4.3 資料繫結</title>
<MySQL>入門三 資料定義語言 DDL
-- DDL 資料定義語言 /* 庫和表的管理 一.庫的管理:建立、修改、刪除 二.表的管理:建立、修改、刪除 建立:create 修改:alter 刪除:drop */ 1.庫的管理 -- 庫的管理 -- 1.庫的建立
HBase篇(2)-資料模型與操作
HBase其實就是一個數據庫,無非就是儲存和增刪改查,那我們先從資料模型說起把 這裡有一張表,是用關係型資料庫的思維畫出來的表,這樣比較易於理解: 概念 Table(表格) 沒啥說的,和關係型資料庫一樣,由多行組成 Row(行) 包含一個key和一個或者多個列。行按照RowKey字典序儲存在表格中。
HBase 入門之資料刷寫(Memstore Flush)詳細說明
接觸過 HBase 的同學應該對 HBase 寫資料的過程比較熟悉(不熟悉也沒關係)。HBase 寫資料(比如 put、delete)的時候,都是寫 WAL(假設 WAL 沒有被關閉) ,然後將資料寫到一個稱為 MemStore 的記憶體結構裡面的,如下圖: 但是,MemStore 畢竟是
HIVE入門之資料模型
內部表 內部表(Table) -與資料庫的Table在概念上類似 -每一個Table在Hive中都有一個相應的目錄(HDFS上的目錄)儲存資料 -所有的Table資料(不包括External Table)都儲存在這個目錄(HDFS目錄)中 -表的元資料資訊,儲存在元資料資
HBase(入門三)讀寫流程
一.HBase和Hadoop的叢集型別 1.單機模型 主要用於開發工作,一臺機器上執行所有的守護程序,或者一臺機器執行多個虛擬機器,一般用於評估和測試. 2.小型叢集 20臺機器以內的叢集,不同的機器執行不同的守護執行緒,適用於資料量和處理請求較小的小型生產環境
寫給程式設計師的機器學習入門 (三) - 線性模型,啟用函式與多層線性模型
生物神經元與人工神經元 在瞭解神經元網路之前,我們先簡單的看看生物學上的神經元是什麼樣子的,下圖摘自維基百科: (因為我不是專家,這裡的解釋只用於理解人工神經元模擬了生物神經元的什麼地方,不一定完全準確) 神經元主要由細胞體和細胞突組成,而細胞突分為樹突 (Dendrites) 和軸突 (Axon),樹突
JavaScript-D3入門五-資料和字串陣列對映到顏色模型
基於《JavaScript-D3入門四-事件繫結》中的程式碼。 這裡只要soccerviz2.js代替上一篇的soccerviz.js,就可以在Web Server上執行html,一邊修改程式碼一邊觀察執行效果。 下面是soccerviz2.js原始碼 //soccerviz2.js //演示
人工智慧的底層構架,認識HBase資料模型
人工智慧作為當前最熱門的技術,其根本上離不開大資料的支援。如果把人工智慧比喻成一個神經網路,那麼資料則是在這個神經網路中用來傳遞資訊的化學物質,沒有資訊傳遞的神經網路顯然不名一文,因此大資料扮演著人工智慧基石的角色。 Hadoop生態系統的HDFS和MapReduce分別為大資料提供了
HBase入門詳解(三).md
環境:centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase的MapReduce操作 注意事項: * Map繼承TableMapper * Reduce繼承TableReducer * 最後Reduce輸出的value的型別是Mut
Speedphp 資料模型類入門及使用技巧
資料模型類,model類,通常是指繼承與SpeedPHP框架spModel類、擁有一切spModel的資料庫操作功能的子類。 1,使用入門 <?php class lib_guestbook extends spModel { var $pk = "
三個例子,讓你看懂資料倉庫多維資料模型的設計
一、概述 多維資料模型是最流行的資料倉庫的資料模型,多維資料模型最典型的資料模式包括星型模式、雪花模式和事實星座模式,本文以例項方式展示三者的模式和區別。 二、星型模式(star schema) 星型模式的核心是一個大的中心表(事實表),一組小的附屬表(維表)。
TensorFlow入門(二) TensorFlow資料模型——張量
1.2 TensorFlow資料模型——張量 1.2.1 張量的概念 在TensorFlow程式中,所有的資料都通過張量的形式來表示。從功能角度上看,張量可以簡單理解為多維陣列,其中零階張量表示為標量(scalar),也就是一個數(張量的型別也可以是字串);第一階張量為向
OGC入門學習專欄-2.1: SWE通用資料模型編碼標準
宣告 本節內容來源於OGC官網的英文文件,筆者將其翻譯為中文,方便大家閱讀。如果有不準確或錯誤的地方,歡迎大家在下方留言指正。 本節屬於OGC學習專欄的感測器網路實現(SWE)部分,主要介紹SWE通用
大資料學習——HBase 入門
HBase 學習環境 shiyanlou 《HBase介紹、安裝與應用案例》 - CentOS6.6 64位 - JDK 1.7.0_55 64位 - Hadoop 1.1.2 Hbase 介紹 HBase ——Hadoop Databa
Asp.Net MVC4入門指南(8):給資料模型新增校驗器
在本節中將會給Movie模型新增驗證邏輯。並且確保這些驗證規則在使用者建立或編輯電影時被執行。 保持事情 DRY ASP.NET MVC 的核心設計信條之一是DRY: "不要重複自己(Don’t Repeat Yourself)"。ASP.NET MVC鼓勵您指定功能或者行為,只做一次,然後將它應用到應用
Asp.Net MVC4入門指南(5):從控制器訪問資料模型
在本節中,您將建立一個新的MoviesController類,並在這個Controller類裡編寫程式碼來取得電影資料,並使用檢視模板將資料展示在瀏覽器裡。 在開始下一步前,先Build一下應用程式(生成應用程式)(確保應用程式編譯沒有問題) 用滑鼠右鍵單擊Controller資料夾,並建立一個新的
PowerDesigner教程系列(三)概念資料模型
目標:本文主要介紹屬性的標準檢查約束、如何定義屬性的附加檢查。一、定義屬性的標準檢查約束標準檢查約束是一組確保屬性有效的表示式。在實體屬性的特性視窗,開啟如圖所示的檢查選項卡。在這個選項卡可以定義屬性的標準檢查約束,視窗中每項的引數的含義,如下 引
TensorFlow——訓練自己的資料(三)模型訓練
檔案training.py 匯入檔案 import os import numpy as np import tensorflow as tf import input_data