hive分桶表的學習

阿新 • • 發佈：2020-08-29

前言：

每一個表或者分割槽，hive都可以進一步組織成桶，桶是更細粒度的資料劃分，他本質不會改變表或分割槽的目錄組織方式，他會改變資料在檔案中的分佈方式。

分桶規則：對分桶欄位值進行雜湊，雜湊值除以桶的個數求餘，餘數決定了該條記錄在哪個桶中，也就是餘數相同的在一個桶中。
   　　桶為表加上額外結構，連結相同列劃分了桶的表，可以使用map-side join更加高效。

優點：1、提高join查詢效率 2、提高抽樣效率

1、建表

通過 clustered by(欄位名) into bucket_num buckets 分桶，意思是根據欄位名分成bucket_num個桶

create table 
 test_bucket (
id int comment 'ID', 
name string comment '名字'
)
comment '測試分桶'
clustered by(id) into 4 buckets
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

2、插入資料

2.1 資料

buckt_data.txt

1,name1
2,name2
3,name3
4,name4
5,name5
6,name6
7,name7
8,name8
9,name9

2.2 load data

直接load data不會有分桶的效果，這樣和不分桶一樣，在HDFS上只有一個檔案。

load data local inpath '/opt/test/buckt_data.txt' into table test_bucket;

需要藉助中間表

create table text_bucket_test (
id int comment 'ID', 
name string comment '名字'
)
comment '測試分桶中間表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

先將資料load到中間表

load data local inpath '/opt/test/buckt_data.txt' into table text_bucket_test;

然後通過下面的語句，將中間表的資料插入到分桶表中，這樣會產生四個檔案。

insert into test_bucket select * from text_bucket_test;

然後我們檢視分桶表的資料目錄，發現好像也只有一個檔案，並沒有按之前的4個檔案，也就是4個桶這樣來劃分。

分桶也就是分割槽，分割槽數量等於檔案數，所以上面方法並沒有分桶。

所以需要開啟強制分桶：

set hive.enforce.bucketing = true;   開啟強制分桶

重新匯入資料：

insert into  test_bucket  select *  from text_bucket_test;

發現組織檔案的有變化：

3.1 檢視結果

用sql看和用hadoop命令看每個檔案，結果每個桶內都是按id升序排序的，也就是和最開始的截圖是一樣的

3.2 好處

因為每個桶內的資料是排序的，這樣每個桶進行連線時就變成了高效的歸併排序

hive分桶表的學習

前言：每一個表或者分割槽，hive都可以進一步組織成桶，桶是更細粒度的資料劃分，他本質不會改變表或分割槽的目錄組織方式，他會改變資料在檔案中的分佈方式。

Hive分桶表的建立和相關操作

1. 建立分桶分割槽表 set hive.enforce.bucketing=true; --設定自動分桶引數 CREATE Table `tmp_wfbwall_log_url`

Hive 系列（五）—— Hive 分割槽表和分桶表

一、分割槽表 1.1 概念 Hive 中的表對應為 HDFS 上的指定目錄，在查詢資料時候，預設會對全表進行掃描，這樣時間和效能的消耗都非常大。

Hive基礎（十三）：分割槽表和分桶表

分割槽表和分桶表 1 分割槽表分割槽表實際上就是對應一個HDFS檔案系統上的獨立的資料夾，該資料夾下是該分割槽所有的資料檔案。Hive中的分割槽就是分目錄，把一個大的資料集根據業務需要分割成小的資料集。在查詢時

我與Hive的不解之謎系列（三）：Hive的分割槽表和分桶表及SQL知識

目錄本篇內容 1.複習回顧 2.hive中的分割槽表 3.hive中的分桶表 4.SQL的快速複習複習回顧

Hive分割槽表分桶表的認識與區別

Hive 分割槽分割槽表實際上是在表的目錄下在以分割槽命名，建子目錄作用：進行分割槽裁剪，避免全表掃描，減少MapReduce處理的資料量，提高效率

Hive 分桶

Hive 分桶 1、hive分桶分桶表是對列值取雜湊值的方式，將不同資料放到不同檔案中儲存。

分割槽表和分桶表

1. 分割槽表分割槽表實際上對應一個HDFS檔案系統上的獨立資料夾，資料儲存在資料夾下HIVE中的分割槽就是分目錄分割槽是將資料按某個欄位分割槽（表中不存在的欄位)分割槽表避免全表掃描，相當於索引

關於hive 分桶重排序的一個栗子

需求原始資料 year tag 2014 1 2015 1 2016 0 2017 0 2018 0 2020 1 2021 1 2022 1 結果資料 2014 1 1 2015 1 2 20

Hive 分割槽和分桶

分割槽 Hive分割槽是指按照資料表的某列或某些列分為多個區，區從形式上可以理解為資料夾，這樣可以實現取資料的時候，某個分割槽取出來的資料就是所需要的分割槽資料。

Hive排序、分割槽和分桶

排序全域性排序（Order by）對整個輸出結果集進行排序，只會產生一個Reduce 每個Reduce內部排序（Sort by）

Hive分割槽分桶

分割槽分割槽概念在邏輯上分割槽表與未分割槽表沒有區別，在物理上分割槽表會將資料按照分割槽鍵的列值儲存在表目錄的子目錄中，目錄名=“分割槽鍵=鍵值”。其中需要注意的是分割槽鍵的值不一定要基於表的某一列（

hive從入門到放棄(四)——分割槽與分桶

今天講講分割槽表和分桶表，前面的文章還沒看的可以點選連結：hive從入門到放棄(一)——初識hivehive從入門到放棄(二)——DDL資料定義hive從入門到放棄(三)——DML資料操作

HIVE執行引擎TEZ學習以及實際使用

概述最近公司在使用Tez，今天寫一篇關於Tez的學習和使用隨筆。Tez是Apache最新的支援DAG作業的開源計算框架，它可以將多個有依賴的作業轉換為一個作業從而大幅提升DAG作業的效能。Tez並不直接面向終端使用者—

每日一洞 | 分塊傳輸學習

分塊傳輸學習 1. 前言最近面試看文章之餘碰到了分塊傳輸的知識點，其實早在2019年就知道了這個名詞但是一直沒有深入的看過，在這裡天上前面的坑。

記介面限流令牌桶的學習

在高併發系統中，存在著巨大的挑戰，大流量高併發的訪問。一些常見的有天貓的雙十一、京東618、秒殺以及延時促銷等。短時間內的如此巨大的訪問流量往往會給資料庫造成巨大的壓力，進而影響伺服器端的穩定性，那麼我們

Hive操作——刪除表(drop、truncate)

Hive刪除操作主要分為幾大類：刪除資料（保留表）、刪除庫表、刪除分割槽。

「分塊」學習筆記

「分塊」演算法思想當我們對於一個很大陣列 \\((1e5)\\) 進行區間修改和區間查詢時，我們會想到線段樹的 \\(nlog_n\\) 的優秀效率。

知識問答檢索中的分桶檢索相關設定

1 分桶檢索的需求在基於索引的QA問答對匹配流程梳理的匹配原理介紹中，我們對QA的相似問進行了入庫預處理，並生成了相關的特徵向量。在入庫時我們是針對問題進行的入庫，但在實際的業務場景中，每一個類目下有很多的

效能優化之給redis插入分桶，製造物理索引

藉助hbase的讀寫思路做數倉 hbase讀寫速度快（與HDFS對比）是基於兩方面： 1）使用者寫（入cache）和（cache）寫入硬碟是非同步的

hive分桶表的學習

前言：

1、建表

2、插入資料

2.1 資料

2.2 load data

3.1 檢視結果

3.2 好處

相關推薦