1. 程式人生 > >Hbase入門

Hbase入門

數據存儲 海量 一致性 入門 性能 高效 讀寫性能 都是 隨機

Hbase入門

簡介

HBase是一個構建在HDFS之上的,分布式的,面向列的開源數據庫,由Google BigTable的開源
實現,它主要用於存儲海量數據,是Hadoop生態系統中的重要一員。

HBase的優勢

成熟

  1. 社區成熟
  2. 理論充分經過實踐
  3. 豐富的工具支持

高效

  1. 將隨機讀寫轉化為順序讀寫,適應高並發寫入
  2. 均衡效果好讀寫性能和機器數保持線性相關
  3. 行中沒有保存數據的列不占存儲空間

分布式特性

  1. 基於HDFS、Zookeeper
  2. 一致性、可用性、分區容忍性
  3. 大數據存儲
  4. 易擴展

HBase的特點

  1. 大:一個表可以有數十億行,上百萬列
  2. 面向列:面向列(族)的存儲和權限訪問,列(族)獨立索引
  3. 稀疏:對於為空(null)的列,並不占用存儲空間,因此,表可以設計的非常稀疏。
  4. 數據類型單一:HBase中的數據類型都是字符串(string)
  5. 無模式:每行都有一個可排序的主鍵和任意多的列,列可以根據需要動態增加,同一張表中不同的行可以有截然不同的列

HBase和RDBMS的區別

  1. 數據類型:HBase中的數據都是字符串類型(String)
  2. 數據操作:HBase只有普通的增、刪、改、查等操作,沒有表之間的關聯查詢,如果想進行關聯查詢的話,可以自己寫MapReduce
  3. 存儲模式:HBase是基於列式存儲的,而RDBMS是基於行式存儲的
  4. 應用場景:HBase適合存儲大量數據,查詢效率極高,HBase自帶索引,即使是在上億的數據中,也可以保證查詢數據在毫秒以內。

Hbase入門