hadoop之傳統的行儲存和（HBase）列儲存的區別

阿新 • • 發佈：2018-12-31

轉自：https://blog.csdn.net/youzhouliu/article/details/67632882

1 為什麼要按列儲存

列式儲存(Columnar or column-based)是相對於傳統關係型資料庫的行式儲存(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好，直接抄原文了)：

Ø Row-based storage stores atable in a sequence of rows.

Ø Column-based storage storesa table in a sequence of columns.

下面來看一個例子：

從上圖可以很清楚地看到，行式儲存下一張表的資料都是放在一起的，但列式儲存下都被分開儲存了。所以它們就有了如下這些優缺點：

行式儲存

列式儲存

優點

Ø 資料被儲存在一起

Ø INSERT/UPDATE容易

Ø 查詢時只有涉及到的列會被讀取

Ø 投影(projection)很高效

Ø 任何列都能作為索引

缺點

Ø 選擇(Selection)時即使只涉及某幾列，所有資料也都會被讀取

Ø 選擇完成時，被選擇的列要重新組裝

Ø INSERT/UPDATE比較麻煩

注：關係型資料庫理論回顧 - 選擇(Selection)和投影(Projection)

2補充：資料壓縮

剛才其實跳過了資料裡提到的另一種技術：通過字典表壓縮資料。為了方便後面的講解，這部分也順帶提一下。

下面才是那張表本來的樣子。經過字典表進行資料壓縮後，表中的字串才都變成數字了。正因為每個字串在字典表裡只出現一次了，所以達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)

3查詢執行效能

下面就是最牛的圖了，通過一條查詢的執行過程說明列式儲存(以及資料壓縮)的優點：

關鍵步驟如下：

1. 去字典表裡找到字串對應數字(只進行一次字串比較)。

2. 用數字去列表裡匹配，匹配上的位置設為1。

3. 把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。

4. 使用這個下標組裝出最終的結果集。

hadoop之傳統的行儲存和（HBase）列儲存的區別

轉自：https://blog.csdn.net/youzhouliu/article/details/676328821 為什麼要按列儲存列式儲存(Columnar or column-based)是相對於傳統關係型資料庫的行式儲存(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表

Hadoop之HDFS常用操作練習（基礎）

內容整理於筆記叢集規劃： ☛Hadoop的高可用完全分佈模式中有HDFS的主節點和資料節點、MapReduce的主節點和任務節點、資料同步通訊節點、主節點切換控制節點總共6類服務節點，其中 HDFS的主節點、MapReduce的主節點、主節點切換控制節

從零開始寫MySql儲存過程（四）通過儲存過程實現階乘的計算

首先，我認為在實際的開發中，應該沒人會用儲存過程去計算階乘，但是用這個作為練習我覺得還是挺不錯的，因為通過這個儲存過程的編寫可以熟悉引數型別，儲存過程內部使用自定義變數，迴圈結構的語法的使用mysql> create procedure jiecheng(in p

Kubernetes部署（十）：儲存之glusterfs和heketi部署

概觀本指南支援在Kubernetes叢集中整合，部署和管理GlusterFS容器化儲存節點。這使Kubernetes管理員能夠為其使用者提供可靠的共享儲存。包括設定指南、其中包含一個示例伺服器pod，它使用動態配置的GlusterFS捲進行儲存。對於那些希望測試或瞭解有關此主題的更多資訊的人，請按照主

從零開始學習docker（九）持久化儲存和資料共享之 bind Mounting

資料持久化的第一種方式Data Volume 使用Data Volume: 首先在Dockerfile中定義 Volu

機器學習之支持向量機（三）：核函數和KKT條件的理解

麻煩 ron 現在調整所有核函數多項式 err ges 註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對

hadoop mapreduce開發實踐之HDFS壓縮文件（-cacheArchive）

delete info dset odi .gz .tar.gz package cal 2.6.0 1、分發HDFS壓縮文件（-cacheArchive）需求：wordcount（只統計指定的單詞【the,and,had...】），但是該文件存儲在HDFS上的壓縮文件,

【unity實用技能】unity編輯器工具之加載預制（Prefab）和場景（Scene）

無在unity裏做打包或者幫策劃美術做工具的時候經常會需要把Prefab拉出來或者場景打開做檢驗工作其實這個在上一篇在ui打包的文章裏有提到，不過重點不同，上篇重點是打包，這篇的重點是把裏面的一個小知識點拉出來講一講接下來就講講兩者分別怎麽做一、把預制Prefab拉出來就是像我們平時把預制拉到這個地方

Hadoop生態圈-Flume的組件之自定義攔截器（interceptor）

events nbsp sin capacity figure IV mem nap code 　　　　　　　　　　　　　　　　Hadoop生態圈-Flume的組件之自定義攔截器（interceptor）　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

k8s中的儲存卷-節點和POD儲存資料（一）

容器的儲存卷 Pod是自己有生命週期的 Pod消失後資料也會消失所以我們要把資料放在一個容器的外面 docker儲存卷在k8s上只有一定的儲存性，因為k8s是排程的，Pod掛掉之後再啟動不會預設之前的資料位置脫離節點的儲存裝置才可以解決持久能力在K8s上Pod刪除，儲存卷也

php之（construct）和（destruct）

<?php class Person{ private $teacher; private $stude

docker容器技術之儲存卷（五）

上一篇文章連結：docker容器技術之虛擬化網路概述（四）目錄一、Docker底層儲存機制介紹二、儲存卷介紹 2.1、容器內的檔案系統存在的問題 2.2、volume的好處 2.3、volume的種類三、Docker容器使用volume

資訊的表示和處理（一）資訊儲存

資訊儲存大多數計算機使用8位的塊，或者位元組（byte），作為最小的可定址的記憶體單位，而不是訪問記憶體中單獨的位。機器級程式將記憶體視為一個非常大的位元組陣列，稱為虛擬記憶體。記憶體的每個位元組都由一個唯一的數字來標識，稱為它的地址，所有可能地址的集合就稱為虛擬地址空間。顧名思義，這個虛擬地址空間只是一

JavaEE Spring與MyBatis的整合之傳統DAO方式整合（教材學習筆記）

在實際開發中MyBatis都是與Spring整合在一起使用的，在之前學習了MyBatis與Spring，現在來學習如何使他們整合首先建立一個名為chapter10的web專案一、環境搭建 1.準備好所有的有關jar包，具體如下：將上面所有jar包新增到專案lib目錄下

Java資料結構和演算法（三）順序儲存的樹結構

Java資料結構和演算法（三）順序儲存的樹結構二叉樹也可以用陣列儲存，可以和完全二叉樹的節點一一對應。一、樹的遍歷 // 二叉樹儲存在陣列中 int[] data; public void preOrder() { preOrder(0); } // 前序遍歷指定的節點 public

vim常用命令之多行註釋和多行刪除

vim中多行註釋和多行刪除命令，這些命令也是經常用到的一些小技巧，可以大大提高工作效率。 1.多行註釋： 1. 首先按esc進入命令列模式下，按下Ctrl + v，進入列（也叫區塊）模式; 2. 在行首使用上下鍵選擇需要註釋的多行; 3. 按下鍵盤（大

（轉載）列式儲存與行式儲存

1 為什麼要按列儲存列式儲存(Columnar or column-based)是相對於傳統關係型資料庫的行式儲存(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好，直接抄原文了)： Ø Row-based storage stor

佇列（queue）及其儲存結構和特點詳解

什麼是佇列？佇列就是一個隊伍。佇列和棧一樣，由一段連續的儲存空間組成，是一個具有自身特殊規則的資料結構。我們說棧是後進先出的規則，佇列剛好與之相反，是一個先進先出（FIFO，First In First Out）或者說後進後出（LILO，Last In Last Out）的資料結構。想象一下，在排隊時是不是先

棧（stack）及其儲存結構和特點詳解

棧是一個有著特殊規則的資料結構。我們熟悉漢諾塔遊戲（如圖 1 所示），這裡有一個明確的規則，即每次只能移動頂端的一個圓盤。圖 1 漢諾塔遊戲棧也有這個特點。我們可以將棧視為漢諾塔中的一個柱子，我們往這個柱子上放置圓盤，先放下去的一定是最後才能拿出來的，而最後放下去的一定是最先拿出來的。這也是棧的最

【資料結構之二叉樹】（一）B樹、B-樹、B+樹、B*樹介紹，和B+樹更適合做檔案索引的原因

今天看資料庫，書中提到：由於索引是採用 B 樹結構儲存的，所以對應的索引項並不會被刪除，經過一段時間的增刪改操作後，資料庫中就會出現大量的儲存碎片，這和磁碟碎片、記憶體碎片產生原理是類似的，這些儲存碎片不僅佔用了儲存空間，而且降低了資料庫執行的速度。如果發現索引

hadoop之傳統的行儲存和（HBase）列儲存的區別

轉自：https://blog.csdn.net/youzhouliu/article/details/67632882

1 為什麼要按列儲存

2補充：資料壓縮

3查詢執行效能

相關推薦