Hbase入門
阿新 • • 發佈:2018-09-16
數據存儲 海量 一致性 入門 性能 高效 讀寫性能 都是 隨機
Hbase入門
簡介
HBase是一個構建在HDFS之上的,分布式的,面向列的開源數據庫,由Google BigTable的開源
實現,它主要用於存儲海量數據,是Hadoop生態系統中的重要一員。
HBase的優勢
成熟
- 社區成熟
- 理論充分經過實踐
- 豐富的工具支持
高效
- 將隨機讀寫轉化為順序讀寫,適應高並發寫入
- 均衡效果好讀寫性能和機器數保持線性相關
- 行中沒有保存數據的列不占存儲空間
分布式特性
- 基於HDFS、Zookeeper
- 一致性、可用性、分區容忍性
- 大數據存儲
- 易擴展
HBase的特點
- 大:一個表可以有數十億行,上百萬列
- 面向列:面向列(族)的存儲和權限訪問,列(族)獨立索引
- 稀疏:對於為空(null)的列,並不占用存儲空間,因此,表可以設計的非常稀疏。
- 數據類型單一:HBase中的數據類型都是字符串(string)
- 無模式:每行都有一個可排序的主鍵和任意多的列,列可以根據需要動態增加,同一張表中不同的行可以有截然不同的列
HBase和RDBMS的區別
- 數據類型:HBase中的數據都是字符串類型(String)
- 數據操作:HBase只有普通的增、刪、改、查等操作,沒有表之間的關聯查詢,如果想進行關聯查詢的話,可以自己寫MapReduce
- 存儲模式:HBase是基於列式存儲的,而RDBMS是基於行式存儲的
- 應用場景:HBase適合存儲大量數據,查詢效率極高,HBase自帶索引,即使是在上億的數據中,也可以保證查詢數據在毫秒以內。
Hbase入門