HIVE的四種排序，以及分割槽分桶

阿新 • • 發佈：2019-01-11

Hive的四種排序
order by
order by 會對輸入做全域性排序，因此只有一個reducer（多個reducer無法保證全域性有序）
只有一個reducer，會導致當輸入規模比較大時，需要較長的時間。
set hive.mapred.mode=nonstrict; (default value / 預設值)
set hive.mapred.mode=strict;
order by 和資料庫中的order by功能一致按照某一項&幾項排序輸出。
與資料庫中order by的區別在於hive.mapred.mode = strict模式下必須指定limit否則執行會報錯
原因：在order by狀態下所有的資料都會到一臺伺服器進行reduce操作也就是隻有一個reduce，如果在資料量大的情況下會出現無果的情況，如果進行limit n，那只有n * map
number 條記錄而已。只有一個reduce也可以出來裡過來

sort by
sort by不是全域性排序，其在資料進入reducer前完成排序
因此，如果用sort by進行排序，並且設定mapred.reduce.tasks>1，則sort by只保證每個reducer的輸出有序，不保證全域性有序。
sort by 不受hive.mapred.mode是否為strict，nostrict的影響。
sort by的資料只能保證在同一個reduce中的資料可以按指定欄位排序。
使用sort by你可以指定執行的reduce個數（set mapred.reduce.tasks=<number>），對輸出的資料在執行歸併排序，即可以得到全部結果。
注意：可以用limit子句大大減少資料量。使用limit n後，傳輸到reduce端（單機）的資料記錄就減少到n*（map個數）。否則由於資料過大可能出不了結果。

distribute by
按照指定的欄位對資料進行劃分到不同的輸出reduce / 檔案中。
insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);
此方法會根據name的長度劃分到不同的reduce中，最終輸出到不同的檔案中。
length 是內建函式，也可以指定其他的函式或這使用自定義函式。

Cluster By
cluster by 除了具有 distribute by 的功能外還兼具 sort by 的功能。
但是排序只能是倒序排序，不能指定排序規則為asc 或者desc。

Hive的分割槽分桶
我們發現其實桶的概念就是MapReduce的分割槽的概念，兩者完全相同。物理上每個桶就是目錄裡的一個檔案，一個作業產生的桶（輸出檔案）數量和reduce任務個數相同。
而分割槽表的概念，則是新的概念。分割槽代表了資料的倉庫，也就是資料夾目錄。每個資料夾下面可以放不同的資料檔案。通過資料夾可以查詢裡面存放的檔案。但資料夾本身和資料的內容毫無關係。
桶則是按照資料內容的某個值進行分桶，把一個大檔案雜湊稱為一個個小檔案。
這些小檔案可以單獨排序。如果另外一個表也按照同樣的規則分成了一個個小檔案。兩個表join的時候，就不必要掃描整個表，只需要匹配相同分桶的資料即可。效率當然大大提升。
同樣，對資料抽樣的時候，也不需要掃描整個檔案。只需要對每個分割槽按照相同規則抽取一部分資料即可。

分割槽表
如果在建表時使用了 PARTITIONED BY，表即為分割槽表。分割槽表下的資料按分割槽鍵的值（或值的範圍）放在HDFS下的不同目錄中，可以有效減少查詢時掃描的資料量，提升查詢效率。
• 非分割槽表
非分割槽表即除分割槽表之外的表。
2.1.2.1.4. 按表是否分桶分類
按表是否分桶可以將表分為兩類：分桶表和非分桶表。
• 分桶表
如果在建表時使用了 CLUSTERED BY … INTO … BUCKETS，表即為分桶表。分桶表下的資料按
分桶鍵的雜湊值放在HDFS下的不同目錄中，可以有效減少查詢時掃描的資料量，提升查詢效率。
• 非分桶表
非分桶表即除分桶表之外的表

Hive的應用範圍舉例
日誌分析：日誌分析可以優化系統，獲知使用者行為，也可以獲知資料的統計資訊
資料探勘：通過結構化資料的挖掘，能夠獲得原先使用者沒有意識的資訊
文件索引：可以對一系列文件進行分析，並形成文件的索引結構，不一定是完整的排序表，可能是關聯資訊的索引
商業智慧資訊處理：可以對商業資訊進行查詢分析，從中可以獲得一些只能決策的資訊
及時查詢以及資料驗證：資料分析人員可能臨時需要驗證資料的特性，需要查詢引擎迅速進行資料分析

HIVE的四種排序，以及分割槽分桶

HIVE的四種排序，以及分割槽分桶

java 強弱軟虛四種引用，以及用到的場景

面試常考演算法題(一)--四種排序方法以及小和問題

清除浮動的最常用的四種方法，以及優缺點

java 強弱軟虛四種引用，以及用到的場景。

大資料系列之資料倉庫Hive知識整理（四）Hive的嚴格模式，動態分割槽，排序，事務，調優

Hive 中的四種排序詳解，再也不會混淆用法了

php 常用四種排序冒泡，選擇，插入，快排

歸併，快速，希爾，普通插入四種排序演算法的比較

Hive（二）--分割槽分桶，內部表外部表

Hive 建立外部分割槽表並載入資料以及如何分桶

【JAVA】四種引用，強弱軟虛以及用到的場景

Java 多執行緒傳值有三種方式，以及另類的第四種方式

創新工場筆試題----有1分,2分,5分,10分四種硬幣，每種硬幣數量無限，給定n分錢，求有多少種組合可以組合成n分錢？

06.實現servlet的幾種方式，以及接口或者類之間的關系

常用的四種排序算法

初學安卓開發隨筆之 Menu、toast 用法、活動的四種啟動模式以及一個方便的Base活動類使用方法

Java四種引用解析以及在Android的應用

單例的幾種方式，以及如何破壞單例，使用枚舉保護單例；

Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考

HIVE的四種排序，以及分割槽分桶

相關推薦