HBase篇(2)-資料模型與操作

阿新 • • 發佈：2018-12-17

HBase其實就是一個數據庫，無非就是儲存和增刪改查，那我們先從資料模型說起把

這裡有一張表，是用關係型資料庫的思維畫出來的表，這樣比較易於理解：

概念

Table（表格）

沒啥說的，和關係型資料庫一樣，由多行組成

Row（行）

包含一個key和一個或者多個列。行按照RowKey字典序儲存在表格中。

Column Family（列族）

可以理解為一組列的集合，HBase官方建議儘量的減少ColumnFamily的數量。

Column Qualifier（列）

一個 Column Family 下面有多個Column Qualifier，

Timestamp（時間戳）

時間戳是寫在值旁邊的一個用於區分值的版本的資料。可以開發者自己指定，預設情況下，時間戳表示的是當資料寫入時RegionSever的時間點。

Cell（單元）

單元是由行、列族、列、值和代表值版本的時間戳組成的。舉個例子：

A  column=CF1:C1_1, timestamp=T1, value=nice

實際模型

上面表的其中一行，在hbase shell 中顯示實際是這樣的。

hbase(main):006:0> scan 'table_name'
ROW                   COLUMN+CELL
A                          column=CF1:C1_1, timestamp=T1, value=nice
A                          column=CF1:C1_2, timestamp=T1, value=handsome
A                          column=CF1:C2_1, timestamp=T1, value=china
A                          column=CF1:C2_2, timestamp=T1, value=guangdong

可見

稀疏列儲存：如果RowKey=B；Column=C1_1 這一格是空的，不會造成儲存空間碎片，只會少存一行

B      column=CF1:C1_1, timestamp=T1, value=nice

新增列方便：只需指定列名列族名，column=CF1:C1_1
rowkey字典序排列
每個value都有一個時間戳

操作彙總

注意後方高能，是一些常用的命令，看完可以收藏一波。

增刪改查

**建立表**
create '表名稱', '列族名稱1','列族名稱2','列族名稱N'

**新增記錄/更新記錄**
put '表名稱', '行名稱', '列名稱:', '值'

**檢視記錄**
get '表名稱', '行名稱'

**查看錶中的記錄總數**
count  '表名稱'

**刪除記錄**
delete  '表名' ,'行名稱' , '列名稱'

**刪除一張表**
先要遮蔽該表，才能對該表進行刪除，第一步 disable '表名稱' 第二步  drop '表名稱'

**檢視所有記錄**
scan "表名稱" 

**檢視某個表某個列中所有資料**
scan "表名稱" , {COLUMNS=>'列族名稱:列名稱'}

過濾器

RowFilter

通過rowkey過濾，匹配出rowkey中含uncle的資料。

> scan 'table_name', FILTER=>"RowFilter(=,'substring:uncle')"

通過rowkey過濾，匹配出rowkey等於uncle666的資料。

> scan 'table_name', FILTER=>"RowFilter(=,'binary:uncle666')"

通過rowkey過濾，匹配出rowkey小於等於uncle666的資料。

> scan 'table_name', FILTER=>"RowFilter(<=,'binary:uncle666')"

匹配從rowkey為uncle666開始讀50行

> scan 'table_name',{COLUMNS=>['cf:column'],LIMIT => 50,STARTROW=>'uncle666'}

匹配時間範圍

> scan 'table_name',{COLUMNS=>['cf:column'],LIMIT => 50,TIMERANGE=>'1533530400000，1535930400000'}

PrefixFilter

通過rowkey字首過濾，匹配出rowkey字首為666的資料。

> scan 'table_name', FILTER=>"PrefixFilter('666')"

ValueFilter

通過value過濾，匹配出value含uncle的資料。

> scan 'table_name', FILTER=>"ValueFilter(=,'substring:uncle')"

FamilyFilter

通過列簇過濾，匹配出列簇含f的資料。

> scan 'table_name', FILTER=>"FamilyFilter(=,'substring:f')"

HBase篇(2)-資料模型與操作

HBase其實就是一個數據庫，無非就是儲存和增刪改查，那我們先從資料模型說起把這裡有一張表，是用關係型資料庫的思維畫出來的表，這樣比較易於理解：概念 Table（表格）沒啥說的，和關係型資料庫一樣，由多行組成 Row（行）包含一個key和一個或者多個列。行按照RowKey字典序儲存在表格中。

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

C++霧中風景番外篇2：Gtest 與 Gmock，聊聊C++的單元測試

argc 存儲初始化 move 實的每次運行相同 int32 正式工作之後，公司對於單元測試要求比較嚴格。（筆者之前比較懶，一般很少寫完整的單測~~）。作為一個合格的開發工程師，需要為所編寫代碼編寫適量的單元測試是十分必要的，在實際進行的開發工作之中，TDD（Te

C語言高階篇 - 2.C語言位操作

1、位操作符（1）位與& （2）位或| （3）位取反~

rust學習筆記中級篇2–結構體與基礎型別成員函式的實現(霜之小刀)

rust學習筆記中級篇2–結構體與基礎型別成員函式的實現(霜之小刀) 歡迎轉載和引用若有問題請聯絡請聯絡 Email : [email protected] QQ:2279557541 結構體的成員函式的實現先看個最簡單的示例。

易學筆記-系統分析師考試-第5章資料庫系統/5.2 資料模型/5.2.3 規範化理論

錯誤關係模式舉例：關係模式R（學生姓名，選修的課程名，任課老師，任課老師地址）資料冗餘：不同學生的任課老師資料可能重複修改異常：修改了一個一條記錄的任課老師地址後，其它同一個老師的地址都要修改插入異常：如果不知道學生姓名，那麼任課老師的資訊就無法插入資料庫

易學筆記-系統分析師考試-第5章資料庫系統/5.2 資料模型/5.2.2 關係模型

關係模式表示關係表示為：R(A1,A2,A3,...An)，其中R為關係名，A為屬性名 R可以理解為資料表，R的關係是靜態的，A的值是動態的關係運算並：指的是兩個關係在集合上的並集，表示為差：指的是兩個關係區別的集合,表示為:

易學筆記-系統分析師考試-第5章資料庫系統/5.2 資料模型/5.2.1 資料模式的分類

資料模式概念：是對現實世界問題的抽象、然後轉換到計算機進行分析和解決內容包括三部分：資料結構：是資料模型的基礎，描述資料的型別、內容、性質和資料間的聯絡等資料操作：主要描述在相應資料結構上的操作型別和操作方法資料約束：描述的

python程式設計篇之資料結構與演算法(三)

連結串列為什麼需要連結串列順序表的構建需要預先知道資料大小來申請連續的儲存空間，而在進行擴充時又需要進行資料的搬遷，所以使用起來並不是很靈活。連結串列結構可以充分利用計算機記憶體空間，實現靈活的記憶體動態管理。連結串列的定義連結串列（Linked li

python程式設計篇之資料結構與演算法(九)

快速排序快速排序（英語：Quicksort），又稱劃分交換排序（partition-exchange sort），通過一趟排序將要排序的資料分割成獨立的兩部分，其中一部分的所有資料都比另外一部分的所有資料都要小，然後再按此方法對這兩部分資料分別進行快速排序，整

python程式設計篇之資料結構與演算法(十一)

歸併排序歸併排序是採用分治法的一個非常典型的應用。歸併排序的思想就是先遞迴分解陣列，再合併陣列。將陣列分解最小之後，然後合併兩個有序陣列，基本思路是比較兩個陣列的最前面的數，誰小就先取誰，取了後相應的指標就往後移一位。然後再比較，直至一個數組為空，最後把另一

python程式設計篇之資料結構與演算法(十二)

搜尋搜尋是在一個專案集合中找到一個特定專案的演算法過程。搜尋通常的答案是真的或假的，因為該專案是否存在。搜尋的幾種常見方法：順序查詢、二分法查詢、二叉樹查詢、雜湊查詢二分法查詢二分查詢又稱折半查詢，優點是比較次數少，查詢速度快，平均效能好；其缺點是要求待

python程式設計篇之資料結構與演算法(十三)

樹與樹演算法樹的概念樹（英語：tree）是一種抽象資料型別（ADT）或是實作這種抽象資料型別的資料結構，用來模擬具有樹狀結構性質的資料集合。它是由n（n>=1）個有限節點組成一個具有層次關係的集合。把它叫做“樹”是因為它看起來像一棵倒掛的樹，也就是說它

python程式設計篇之資料結構與演算法(十四)

二叉樹二叉樹的概念二叉樹是每個節點最多有兩個子樹的樹結構。通常子樹被稱作“左子樹”（left subtree）和“右子樹”（right subtree）二叉樹的性質性質1: 在二叉樹的第i層上至多有2^(i-1)個結點（i>0）性質2: 深度為k

《資料密集型應用系統設計》第二章資料模型與查詢語言

概述本章從資料庫之初的資料模型開始介紹（20世紀60年代），從使用者使用的角度分析了每種資料模型的優缺點。就目前國內網際網路儲存來看實際用處並不大，對於網際網路分散式儲存開發工程師更多的意義是提供了一個全面（發展歷程）、籠統的瞭解資料庫的發展。在資料模型部分介紹了，關係

第八篇2 資料規整：聚合、合併和重塑

在許多應⽤中，資料可能分散在許多⽂件或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的⽅法。⾸先，介紹pandas的層次化索引，它⼴泛⽤於以上操作。然後，深⼊介紹了⼀些特殊的資料操作。一、層次化索引層次化索引（hierarchical indexing）是pandas的⼀項重要

zookeeper篇(1)-應用場景與操作

Zookeeper作為一個分散式協調系統提供了一項基本服務：分散式鎖服務，分散式鎖是分散式協調技術實現的核心內容。像配置管理、任務分發、組服務、分散式訊息佇列、分散式通知/協調等，這些應用實際上都是基於這項基礎服務由使用者自己摸索出來的。 1.Zookee

回爐篇2—資料結構(1)之資料結構和演算法

想學新東西，隨手拿來一本資料，一部視訊，但總感覺學不會，吸收效率低。不是我們笨，只是開啟他們的方式不對，合適的學習教材，能讓學習過程變得簡單，形象貼近生活。文底是乾貨直通車，好東西大家記得收藏，都是精挑細選的。文章內容是我自己的筆記，是用最簡語言寫的，可能不利於理解，大家想了解更多，

挑戰程式設計競賽2 資料結構與演算法學習筆記

例題有一組n個數，求在這組數中 str[j]-str[i] 的最大值，且j>i.， 2<n<20000。我最初的思路是， max=0; for(i=0;i<n;i++) { for(j=0;j<i;j++) { i

PowerDesigner的使用_資料模型與表之間的互相生成

版本資訊： PowerDesigner版本：Version 15.1.0.2850 JDK:jdk1.6.0_45(32位) mysql資料庫：5.6 mysql jdbc驅動：mysql-connector-java-5.1.36.jar 先建立連線資料庫mysql的d

HBase篇(2)-資料模型與操作

概念

實際模型

可見

操作彙總

增刪改查

過濾器

RowFilter

PrefixFilter

ValueFilter

FamilyFilter

相關推薦