Hbase知識點

阿新 • • 發佈：2019-01-02

Hbase的特性：容量巨大、面向列、稀疏性、擴充套件性，高可靠性、高效能
Hbase的優勢：高可靠性，高效能，面向列可伸縮的分散式資料庫，利用hbase可以在廉價pc上搭建起大規模結構化資料叢集。
Hbase的核心功能模組：
Client：這個Hbase系統的入口，直接通過客戶端操作hbase，使用RPC協議與Hmaster(管理類操作)和RegionServer（資料寫讀類操作）進行通訊
協調服務模組ZooKeeper，負責管理Hbase中多Hmaster的選舉、伺服器之間狀態同步等，儲存所有region的定址入口，保證hbase叢集中只有一個Hmaster節點
Hmaster主要的職責是什麼？答：主要負責Table和Region的管理工作，管理使用者對Table的增刪改查操作，管理regionserver的負載均衡，調整region分佈；在region分裂後，負責新region的分配；在regionserver宕機後，負責失效regionserver上的region的遷移工作

hbase使用場景（最好知道幾個例子：淘寶，搜狐等等）：儲存大量的資料且能保證良好的隨機訪問效能，需要很高的寫吞吐量，瞬間寫入量很大，可以動態擴充套件整個儲存系統容量，資料格式無限制，業務場景簡單
為什麼在Hbase的RegionServer上會發生切表這一動作？答：Hbase中每張表的大小可能是TB級，甚至是pb級的；一臺物理機上是不可能儲存整張表，因此表會切分成小一點的資料單位，然後分配到多臺伺服器上
Hmaster為什麼沒有單點問題？答：Hbase 中可以啟動多個Hmaster，通過Zookeeper中的Master Election機制保證總會有一個master在執行
ZooKeeper在整個框架中的定位。答：一種集中服務，用來維護配置資訊、命名服務、提供分散式同步和提供分組服務；負責管理Hbase中多Hmaster的選舉、伺服器之間狀態同步等，儲存所有region的定址入口，保證hbase叢集中只有一個Hmaster節點。

請描述Hregion的負載均衡過程。答：HBase使用RowKey將表水平切割成多個 Hregion，每個HRegion都紀錄了它的StartKey和 EndKey，Client可以通過HMaster快速的定位每個 RowKey在哪個HRegion中，HRegion由HMaster分配到相應在HRegion Split後，兩個新的HRegion 最初會和之前的父HRegion在相同的 HRegionServer上，出於負載均衡的考慮，HMaster可能會將其中的一個甚至兩個重新分配的其他的 HRegionServer中，此時會引起有些HRegionServer處理的數據在其他節點上，直到下一次Major Compaction將資料從遠端的節點移動到本地節點。這就是Hregion的負載均衡。

Hstore由哪些部分組成？各個部分主要負責哪些工作？答：兩部分組成，一部分是MemStore，一部分是StoreFiles；*MemStore是Sorted Memory Buffer，記憶體裡的寫入緩衝區，使用者寫入的資料首先會放入MemStore；當某一個region的MemStore大小達到一定的閥值時，hbase就會阻塞更新；當MemStore滿了以後會Flush成一個 StoreFile（底層實現是HFile）儲存到磁碟上；*StoreFile以HFile格式儲存在HDFS上；用於儲存Hbase的資料；當StoreFile檔案數量增長到一定閾值，會觸發Compact操作，將多個StoreFiles合併成一個StoreFile；壓縮過程中會進行版本合併和資料刪除；因此可以看出HBase其實只有增加資料，所有的更新和刪除操作都是在後續的 compact過程中進行的； • 這使得使用者的寫操作只要進入記憶體中就可以立即返回，保證了HBase I/O的高效能。
WAL是什麼？作用是什麼？答：預寫式日誌，記錄所有更新操作； • 一個region server包括Hlog日誌和存放實際資料的Store； • 用於災難恢復
請描述RegionSever的讀寫流程。答：RegionServer的寫流程 • 當客戶端發起一個Put請求時，首先它從 hbase:meta表中查出該Put資料最終需要去的HRegionServer。 • 然後客戶端將Put請求傳送給相應的 HRegionServer，在HRegionServer中它首先會將該Put操作寫入WAL日誌檔案中 (Flush到磁碟 • 寫完WAL日誌檔案後，HRegionServer根據Put中的TableName和RowKey找到對應的HRegion，並根據Column Family找到對應的HStore，並將Put寫入到該 HStore的MemStore中。 • 此時寫成功，並返回通知客戶端。RegionServer的讀流程 • 分析一下相同的Cell可能存在的位置 • 首先對新寫入的Cell，它會存在於 MemStore中； • 然後對之前已經Flush到HDFS中的Cell，它會存在於某個或某些StoreFile(HFile)中； • 最後，對剛讀取過的Cell，它可能存在於 BlockCache中。 • 既然相同的Cell可能儲存在三個地方，在讀取的時候只需要掃瞄這三個地方，然後將結果合併即可(Merge Read)， • 在HBase中掃瞄的順序依次是： BlockCache、MemStore、 StoreFile(HFile)。 • 其中StoreFile的掃瞄先會使用Bloom Filter過濾那些不可能符合條件的HFile， • 然後使用Block Index快速定位Cell，並將其載入到BlockCache中，然後從 BlockCache中讀取。 • 一個HStore可能存在多個 StoreFile(HFile)，此時需要掃瞄多個 HFile，如果HFile過多又是會引起效能問題。
Compaction方式有幾種？每一種應用的場景是什麼？答：在HBase中Compaction分為兩種：Minor Compaction和Major Compaction。 • Minor Compaction是指選取一些小的、相鄰的StoreFile將他們合併成一個更大的 StoreFile，在這個過程中不會處理已經 Deleted或Expired的Cell。 • Major Compaction是指將所有的 StoreFile合併成一個StoreFile • 在這個過程中，標記為Deleted的Cell會被刪除 • 而那些已經Expired的Cell會被丟棄 • 那些已經超過最多版本數的Cell會被丟棄 • 一次Major Compaction的結果是一個 HStore只有一個StoreFile存在 • Major Compaction可以手動或自動觸發 • 由於它會引起很多的IO操作而引起效能問題 • 因而它一般會被安排在週末、凌晨等叢集比較閒的時間。
請解釋Hbase與Hadoop是如何協同工作的。（不知道標準答案）答：HBase是一個分散式的、面向列的開源資料庫.HBase是Apache的Hadoop專案的子專案
Hbase中對Join的支援是如何做到的？把另一張表的關鍵字加入表中列族，加入二級索引
請說出幾種RowKey雜湊的方法：加入隨機數，反轉倒序，取模，雜湊值
為什麼Hbase不能處理好兩個或者三個以上的列族？答：由於Hbase的物理因素，記憶體memstore在做flash操作後會生成針對列族的Hfile檔案，當各個Hfile資料量大小差異過大時會做出“合併”操作，而此操作是在region上完成的，region又是使用者承載著資料操作，因此影響效能，所以過多的列族是Hbase不能處理的。

Hbase知識點

Hbase的特性：容量巨大、面向列、稀疏性、擴充套件性，高可靠性、高效能 Hbase的優勢：高可靠性，高效能，面向列可伸縮的分散式資料庫，利用hbase可以在廉價pc上搭建起大規模結構化資料叢集。 Hbase的核心功能模組： Client：這個Hbase系統的入口，直接通過客戶端操作hba

hbase中的一些重要的知識點

hbase中的一些重要的知識點 ##1.應用場景 1.需要對海量非結構化的資料進行儲存 2.需要隨機近實時的讀寫管理資料 ##2.rowKey的設計長度原則: rowkey是一個二進位制流,建議rowkey的長度不要超過16個位元組原因如下：（

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

今天，上海尚學堂大資料培訓班畢業的一位學生去參加易普軟體公司面試，應聘的職位是大資料開發。面試官問了他10個問題，主要集中在Hbase、Spark、Hive和MapReduce上，基礎概念、特點、應用場景等問得多。看來，還是非常注重基礎的牢固。整個大資料開發技術，這幾個技術知識點佔了很大一部分。那本

HBase核心知識點總結

一、HBase介紹 1、基本概念 HBase是一種Hadoop資料庫，經常被描述為一種稀疏的，分散式的，持久化的，多維有序對映，它基於行鍵、列鍵和時間戳建立索引，是一個可以隨機訪問的儲存和檢索資料的平臺。HBase不限制儲存的資料的種類，允許動態的、靈活的資料模型，不用S

大白話詳解大資料HBase核心知識點，老劉真的很用心(2)

前言：老劉目前為明年校招而努力，寫文章主要是想用大白話把自己複習的大資料知識點詳細解釋出來，拒絕資料上的生搬硬套，做到有自己的理解！ 01 HBase知識點第6點：HRegionServer架構為什麼要了解HRegionServer的架構呢？因為HBase叢集中資料的儲存和HRegion

大白話詳解大資料HBase核心知識點，老劉真的很用心(3)

老劉目前為明年校招而努力，寫文章主要是想用大白話把自己複習的大資料知識點詳細解釋出來，拒絕資料上的生搬硬套，做到有自己的理解！ 01 HBase知識點(3) 第13點：HBase表的熱點問題什麼是熱點問題？就是我們檢索hbase的資料首先要通過rowkey來定位資料行，但是呢這裡面

.Net Mvc框架知識點

分部視圖 oba net title info bin 共享顯式 control https://www.h .Net Mvc框架知識點一、實現Controller的依賴註入： 1.自定義繼承DefaultControllerFactory 類的控制器工

深入JDK源碼，這裏總有你不知道的知識點！

方法 int com 運行時異常 form 成對 adl 拷貝般的 Java的基礎知識有很多，但是我認為最基礎的知識應該要屬jdk的基礎代碼，jdk的基礎代碼裏面，有分了很多基礎模塊，其中又屬jdk包下面的lang包最為基礎。我們下面將總結和分析一下lang包下面最為基

系統分析師教程知識點精講之標準化知識

系統分析師軟考系統分析師在2017上半年開考，整理了一些系統分析師教程知識點精講。標準化知識按照ISO/IEC9126，軟件質量模型包括6個質量特性和21個質量子特性: SW-CMM軟件采辦能力成熟度模型：關註的是軟件購買者的軟件能力成熟度；而CMM關註的是軟件

數據庫---->應掌握的知識點：概述

如何實現數據設計掌握伸縮性原理 dbms 存儲系統第一部分 DBMS的功能以及實現該功能的原理數據庫管理系統相關知識 DBMS如何存儲和管理大數據集（有效性和可伸縮性） DBMS是如何實現多用戶同時存取數據的（並發性）系統出現故障時，DBMS如何保護數

[轉]畢設- 深入HBase架構解析（一）

mil https 文件存儲 back 高效索引 asa dia 隨機深入HBase架構解析（一）前記公司內部使用的是MapR版本的Hadoop生態系統，因而從MapR的官網看到了這篇文文章：An In-Depth Look at the HBase Ar

[轉]畢設- 深入HBase架構解析（二）

node 角度發送 under 收集 .org fig 服務器 url 深入HBase架構解析（二）前言這是《深入HBase架構解析（一）》的續，不多廢話，繼續。。。。 HBase讀的實現通過前文的描述，我們知道在HBase寫時，相同Cell(RowKe

HBase多條件及分頁查詢的一些方法

nosql數據庫應用場景實現簡單信息 byte 多條多個不可用寫性能 HBase是Apache Hadoop生態系統中的重要一員，它的海量數據存儲能力，超高的數據讀寫性能，以及優秀的可擴展性使之成為最受歡迎的NoSQL數據庫之一。它超強的插入和讀取性能與它的數據

js常見知識點3.面向對象之繼承、設計模式

環境設計方法 nbsp -- div 細節外部接口實現一、面向對象的三大特征　　建議回復：　　　封裝：屏蔽內部細節、調用外部接口實現對應功能(函數調用) 　　繼承：子類繼承父類中的屬性和方法　　多態（js中不存在多態的概念）二、繼承　　建議回復：　

【轉載】Hadoop 2.7.3 和Hbase 1.2.4安裝教程

啟動運行 property new rop net 文本文 .tar.gz cor 轉載地址：http://blog.csdn.net/napoay/article/details/54136398 目錄(?)[+] 一、機器環境

自動加載類的知識點整理

簡單副本而是 ren 是個其中自動調用 php文件代碼 //__tostring()方法 class Ren　　　　　　//造一個人類，裏面有成員變量$name { 　　public $name; } $r = new Ren(); echo $r; //寫出

Hbase(五) hbase內部原理

當前 times filter 提高恢復數據是否最後一行地址一、系統架構客戶端連接hbase依賴於zookeeper，hbase存儲依賴於hadoop client： 1、包含訪問 hbase 的接口， client 維護著一些 cache（

hbase increment 性能對比 get&put

hbase incrementhbase increment 可以作為計數器使用，並且是線程安全的，如果在不考慮線程安全情況下，單線程操作性能會比get & put性能高麽？帶著這個疑問我做了以下測試。IncrementHtable.batch(incrementList)無緩存批量提交Htable.

老男孩教育每日一題-2017年5月12日-磁盤知識點：linux系統中LVM配置實現方法?

邏輯卷管理磁盤每日一題 1.題目老男孩教育每日一題-2017年5月12日-磁盤知識點：linux系統中LVM配置實現方法?2.參考答案01：將一個或多個物理分區創建為一個PV# pvcreate /dev/sdb{1,2} Physical volume "/dev/sdb1" success

前端知識點

js 知識點知識點： * ul li 中默認選擇 class="active" * $("#firstLi").removeClass("active");//去掉樣式 $("#fourthLi").addClass("active");//添加樣式 * 字體加粗： <b>李建波&l

Hbase知識點

相關推薦