資料倉庫和hive語句中的分割槽表和分桶表

阿新 • • 發佈：2018-12-31

資料倉庫中從各資料來源獲取資料以及在資料倉庫內的資料轉換和流動都可以認為是ETL（抽取Extra,轉化Transfer,裝載Load）的過程,ETL是資料倉庫的流水線.

資料倉庫(data warehouse)與資料庫的區別:

資料倉庫(data warehouse)-->面向分析, 不生產資料, 不消費資料, 只是資料的搬運工, 為了分析方便
OLTP-->面向事務, 操作型處理, 就是關係型資料庫(RDBMS),如: MySQL oracle sqlserver db2
OLAP-->面向分析, 分析型處理, 就是資料倉庫, 面對的是歷史資料(歷史資料中的一部分就是來自資料庫)展開分析.

資料倉庫的分層架構:

源資料層(ODS): 直接引用外圍的資料, 沒有統一格式的, 不會直接應用使用,不利於分析
資料倉庫層(DW): 來自於ODS, 要經過ETL的過程, 格式統一, 資料規整, 乾淨清潔
資料應用層(DA): 要去用DW層資料, 真正的資料使用者.

資料倉庫中資料的流轉流程: ODS-->DW-->DA

元資料: 描述資料的資料, 解析資料的資料, 或者說是解析性資料,相當於資料字典

資料倉庫元資料: 記錄資料倉庫維護過程中的點點滴滴.

資料倉庫:

提供資料儲存能力
能夠進行ETL的能力

Hive:

hive是基於hadoop的一個數據倉庫工具, 將結構化資料對映成一張表, 通過sql查詢, 本質上是把sql轉化成了mr程式執行.

所謂hive的分割槽(partitioned by)表就是以資料夾的形式把檔案管理的更加清晰, 不同的分割槽內容代表著不同的資料夾, 當表是分割槽表的時候, 直接往表的目錄下放資料的方式已經不行了, 德通過分割槽表特有的載入資料方式.

關於分割槽表的總結:

分割槽表是為了減少查詢時候的全表掃描而出現.
分割槽表的現象就是在表的資料夾下多了一個資料夾, 而資料夾的名字就是分割槽欄位=分割槽值
分割槽欄位的值在查詢的時候會顯示出來, 但是並不代表結構化資料中有這個欄位, 分割槽欄位事一個虛擬欄位, 只是用來標識檔案, 方便使用者查詢的時候根據這個欄位進行過濾, 從而減少全域性掃描.
分割槽表的資料通過load data的方式載入(在客戶端執行), 載入的時候要指定分割槽的值(這個值就是這批資料資料夾名字的值).

關於分割槽欄位一定不會是表中存在的欄位

分割槽表在實際中的意義: 根據需求把資料管理在不同資料夾下.

分割槽表建表語句:

Create table t_user(id int,name string) partitioned by (country string) row format delimited fields terminated by ',';

Load data local inpath‘/root/hivedata/china.txt’ into table t_user2 partiton(country=’China’);

分桶表(分簇表):

Clustered by (欄位) intonum_buckets buckets

翻譯: 把資料按照指定的欄位分成幾桶(分成幾個部分)

如:按照性別分成2個部分

Clustered by (sex) into 2 buckets

1. 分桶表把資料分開了, 分開幾個部分就是幾桶

2. 分桶表根據欄位分, 這個欄位一定是表中的欄位

3. 在檔案的層面上對資料進行分開

分桶表的操作;

1. 分桶表的功能預設不開啟, 需要自己手動開啟

Set hive.enforce.bucketing=true

2. 分成幾桶也需要自己指定

Set mapreduce.job.reduces=N

總結分桶表:

1. 分桶表在檔案層面, 把資料分開了,分開的語句是

Clustered by (欄位) into num_bucketsbuckets, 其中的欄位必須是表中已經存在的欄位

2. 預設分桶規則: hash_function(欄位)%桶的個數

當欄位是int型別的時候hash_function(欄位)=欄位本身

如果是其他型別, 比較複雜, 欄位值雜湊 % 桶的個數

3. 分桶分成幾個部分, 實際上就是reducetask執行的個數, 個數是幾, 桶就是幾, 最終檔案就是幾個部分,因此分桶的資料要想成功必須執行mr程式.

分桶表的出現, 提高了join查詢時的效率, 減少了笛卡爾積的數量

使用規則: 把左右兩邊按照join欄位分桶即可.

分桶表語法:

1. 指定開啟分桶

Set.hive.enforce.buketing=true;

Set mapreduce.job.reduces=4;(分桶個數)

2. 建立一個用於分桶的表

drop table stu_buck;

create table stu_buck(Sno int,Sname string,Sex string,Sage int,Sdeptstring)

clustered by(Sno) sorted by(Sno DESC) into 4 buckets rowformat delimited fields terminated by ',';

3. 建立student表,並指定分隔符

create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)

row format delimited fields terminated by ',';

4. 把資料對映到student

load data local inpath '/root/hivedata/students.txt' intotable student;

5. 將資料匯入分桶表,方式: insert + select insert資料來自於select查詢結果

insert overwrite table stu_buck select * from student clusterby(Sno);

資料倉庫和hive語句中的分割槽表和分桶表

資料倉庫中從各資料來源獲取資料以及在資料倉庫內的資料轉換和流動都可以認為是ETL（抽取Extra,轉化Transfer,裝載Load）的過程,ETL是資料倉庫的流水線.資料倉庫(data warehouse)與資料庫的區別:資料倉庫(data warehouse)--

Hive優化--分割槽表與分桶表

1. 根據業務特徵建立分割槽表使用分割槽表能有效地分隔資料，分割槽條件作為查詢條件時，減少掃描的資料量，加快查詢的效率。如果業務資料有明顯的時間、區域等維度的區分，同時有較多的對應維度的查詢條件時，建議按照相應維度進行一級或多級分割槽。2. 根據業務特徵建立

一起學Hive——建立內部表、外部表、分割槽表和分桶表及匯入資料

Hive本身並不儲存資料，而是將資料儲存在Hadoop的HDFS中，表名對應HDFS中的目錄/檔案。根據資料的不同儲存方式，將Hive表分為外部表、內部表、分割槽表和分桶表四種資料模型。每種資料模型各有優缺點。通過create user命令建立user表時，會在HDFS中生成一個user目錄/檔案。外部表

Hive面試題:Hive分割槽表和分桶表的區別

分割槽在HDFS上的表現形式是一個目錄，分桶是一個單獨的檔案分割槽: 細化資料管理，直接讀對應目錄，縮小mapreduce程式要掃描的資料量分桶： 1、提高join查詢的效率（用分桶欄位做連線欄位）

linux中資料倉庫工具hive簡介及安裝部署詳解

簡介： Apache Hive是一個建立在Hadoop架構之上的資料倉庫。它能夠提供資料的精煉，查詢和分析。 hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。分割槽為 HDFS 上表目錄的子目錄，資料按照分割槽儲存在子目錄中。如果查詢的 where 字句的中包含分割槽條件，則直接從該分割槽去查詢，而不是掃描整個表目錄，合

include包含頭文件的語句中,雙引號和尖括號的區別

標準庫 targe 搜索環境 com tro 位置區別文件 include包含頭文件的語句中,雙引號和尖括號的區別 #include <>格式：引用標準庫頭文件，編譯器從標準庫目錄開始搜索 #incluce ""格式：引用非標準庫的頭文件，編譯器從用戶

MySQL查詢語句中的IN 和Exists 對比分析

In exists nested loop sql優化查詢效率背景介紹最近在寫SQL語句時，對選擇IN 還是Exists 猶豫不決，於是把兩種方法的SQL都寫出來對比一下執行效率，發現IN的查詢效率比Exists高了很多，於是想當然的認為IN的效率比Exists好，但本著尋根究底的原

學習大資料技術，Hive實踐分享之儲存和壓縮的坑

在學習大資料技術的過程中，HIVE是非常重要的技術之一，但我們在專案上經常會遇到一些儲存和壓縮的坑，本文通過科多大資料的武老師整理，分享給大家。大家都知道，由於叢集資源有限，我們一般都會針對資料檔案的「儲存結構」和「壓縮形式」進行配置優化。在我實際檢視以後，發現叢集的檔案儲存格式為Parque

sql語句中的insert 和 insert into 的區別？into有什麼用？

insert into tableName values(........)insert tableName (欄位名1，欄位名2，。。。)values（。。。。。。）看語句結構就知道區別了。insert into 是直接對應表所有欄位，values裡必須包含所有欄位。insert是指定欄位對應，value

Hive常用函式和分桶表

Hive常用函式和分桶表一、字串常用函式二、分桶表　　分桶操作是更細粒度的分配方式，一張表可以同時分割槽和分桶，分桶的原理是根據指定的列的計算hash值模餘分桶數量後將資料分開存放。　　Hive的分桶實際上就是Hadoop的分割槽，有幾個桶，就用幾個reduce

Hive的分桶表和抽樣查詢（附帶案例，分桶和分表的區別）

目錄總結：分桶表：分桶和分割槽的區別：抽樣查詢：總結：總結： ①分桶為抽樣查詢而生，分桶表的建立使用【clustered by （分桶欄位）into 桶的個數 buckets】，往分桶表中匯入資料的時候，需要藉助第三張表select tabl

SQL語句中not in 和not exist的區別

in和exists in 是把外表和內表作hash 連線，而exists是對外表作loop迴圈，每次loop迴圈再對內表進行查詢。一直以來認為exists比in效率高的說法是不準確的。如果查詢的兩個表大小相當，那麼用in和exists差別不大。如果兩個表中一個較小，一個是

在try-catch-finally語句中，return和finally的關係

public class TestTryCatch { public static void main(String[] args) { TestTryCatch test = new TestTryCatch(); int fun = test.fun();

mybatis insert的入參為map時,insert語句中獲取key和value的寫法

1. <insert id="submitAudit"> insert into tablename <foreach collection="params.keys" item="key" open="(" close=")" separator=",">

如何控制Hive執行中的Map和Reduce數量

目錄 Map Map map任務的個數 map任務的個數是在Map階段中InputSplit決定的，InputSplit將作業的Input目錄下的檔案切片，每個片大小預設是等於block塊大小的。所以不同的m

HIVE 分割槽表分桶表

//分割槽表,優化手段之一，從目錄的層面控制搜尋資料的範圍。 //建立分割槽表. $hive>CREATE TABLE t3(id int,name string,age int) PARTITIONED BY (Year INT, Month INT)

資料倉庫結構設計（星型結構和雪花結構）

當有一個或多個維表沒有直接連線到事實表上，而是通過其他維表連線到事實表上時，其圖解就像多個雪花連線在一起，故稱雪花模型。雪花模型是對星型模型的擴充套件。它對星型模型的維表進一步層次化，原有的各維表可能被擴充套件為小的事實表，形成一些區域性的 " 層次 " 區域，這些被分解的表都連線到主維度表而不是事實表。如圖

sql語句中count(1)和count(欄位名)的區別

count(1)會統計包括null值的所有符合條件的欄位的條數 count(欄位名)統計非null值的所有符合條件的欄位的條數比如： tb_source表中資料 count(1)統計當type=3時source_name的條數 select count(1) from tb_so

PHP語言中echo語句中單引號和雙引號的區別

PHP語言中輸出語句中的內容，我們應該使用英文的單引號還是英文的雙引號來將所要輸出的內容輸出出來呢？ <?php $text='這是一句話'; $echo1="或許$text 吧"; $ec

資料倉庫和hive語句中的分割槽表和分桶表

相關推薦