017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

阿新 • • 發佈：2017-11-25

col 去重排序 sel cluster 可能更多分發指定 clust

一、數據去重排序

1.1、去重

　　distinct與group by

　　盡量避免使用distinct進行排重，特別是大表操作，用group by代替　　

-- 不建議
select DISTINCT key from a
-- 建議
select key from a group by key

1.2、排序優化

　　只有order by產生的結果是全局有序的，可以根據實際場景進行選擇排序。

　　1、order by 實現全局排序，一個reduce實現，由於不能並發執行，所以效率偏低

　　2、sort by實現部分有序，單個reduce輸出的結果是有序的，效率高，通常和distribute by關鍵字一起使用

　　　　（distribute by 關鍵字可以指定map到reduce端的分發key）

　　3、cluster by col1等價於 distribute by col1 sort by col1但不能指定排序規則

二、數據傾斜

　　任務進度長時間維持在99%（或100%），查看任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成。因為其處理的數據量和其他reduce差異過大。

　　單一reduce的記錄數與平均記錄數差異過大，通常可能達到30倍甚至更多。最長時長遠大於平均時長。

017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

col 去重排序 sel cluster 可能更多分發指定 clust 一、數據去重排序 1.1、去重　　distinct與group by 　　盡量避免使用distinct進行排重，特別是大表操作，用group by代替　　 -- 不建議 selec

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

pan 查詢寫入所有 not insert語句 int 寫入文件文件系統一、概述 hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。 DML包括：INSERT插入

016-Hadoop Hive sql語法詳解6-job輸入輸出優化、數據剪裁、減少job數、動態分區

分享 hive table 取數 nbsp put union 正在 style 一、job輸入輸出優化善用muti-insert、union all，不同表的union all相當於multiple inputs，同一個表的union all，相當map一次輸出多條

Hadoop Hive sql語法詳解

Hive 是基於Hadoop 構建的一套資料倉庫分析系統，它提供了豐富的SQL查詢方式來分析儲存在Hadoop 分散式檔案系統中的資料，可以將結構化的資料檔案對映為一張資料庫表，並提供完整的SQL查詢功能，可以將SQL語句轉換為MapReduce任務進行執行，通過自己的SQL

Hadoop Hive sql語法詳解5--HiveQL與SQL區別

1.hive內聯支援什麼格式？2.分號字元注意什麼問題？3.hive中empty是否為null? 4.hive是否支援插入現有表或則分割槽中？ 5.hive是否支援INSERT INTO 表 values（）？ 1、Hive不支援等值連線 •SQL中對兩表內聯可以寫成：•s

Hadoop Hive sql語法詳解3--DML 操作:元資料儲存

轉載自：http://www.aboutyun.com/thread-7326-1-1.html 1 基本的Select 操作 SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_referenc

Hadoop Hive sql語法詳解1-認識hive及DDL操作

轉載自：http://www.aboutyun.com/thread-7324-1-1.html 1.認識hive：Hive 是基於Hadoop 構建的一套資料倉庫分析系統，它提供了豐富的SQL查詢方式來分析儲存在Hadoop 分散式檔案系統中的資料，可以將結構化的資料檔

Hive sql語法詳解

1. DDL 操作 DDL •建表 •刪除表 •修改表結構 •建立／刪除檢視 •建立資料庫 •顯示命令建表： CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT

Zookeeper詳解（八）：Zookeeper數據存儲

標準一份數據結構創建指定樹形數據 mic 正在所有 zookeeper日誌有三類：快照（雖然不是日誌但是它是數據）、事務日誌（記錄每次操作）、zookeeper自己系統日誌。第三個不屬於數據類所以這裏不做說明。快照數據Zookeeper在運行時會在內存中維護一個

python--學習筆記7 文件格式、數據讀取、儲存

字段 message series index 正則表達式 ESS 對象之一 pan 讀取文本類數據 pandas提供了一些將表格型數據讀取為DataFrame對象的函數。read_csv 默認分隔符為逗號， read_table 默認分隔符為制表符 "\t" 類型

mysql-5.7.9 shutdown 語法詳解

resp 登錄 ive conn denied 權限不足這樣的 fec comm mysql-5.7.9 終於提供shutdown 語法啦：　　之前如果想關閉一個mysql數據庫可以通過kill 命令、mysqladmin shutdown 、service mysql

Hibernate學習之hql 與sql hql 語法詳解

Hibernate中查詢：　　　　createQuery( String qlString)使用的是HQL語句；　　　　createNativeQuery (String sqlString)使用的是SQL語句；關係HQL與SQL區別：　　 hql 語法詳解：　　

例題SQL語句詳解-資料庫基本操作7-資料型別拓展

| 1.6 資料型別——boolean MySQL不支援boolean型別，true和false在資料庫中對應1和0。 mysql> create table t15( -> field boolean -> ); Query

【H.264/AVC視訊編解碼技術詳解】二十二、熵編碼(7)：語法元素的CABAC解析

《H.264/AVC視訊編解碼技術詳解》視訊教程已經在“CSDN學院”上線，視訊中詳述了H.264的背景、標準協議和實現，並通過一個實戰工程的形式對H.264的標準進行解析和實現，歡迎觀看！ “紙上得來終覺淺，絕知此事要躬行”，只有自己按照標準文件以程式碼的形式操作一遍，才能對視訊壓

Thinking in BigData（八）大資料Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解

純乾貨：Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解。通過這一階段的調研總結，從內部機理的角度詳細分析，HDFS、MapReduce、Hbase、Hive是如何執行，以及基於Hadoop資料倉庫的構建和分散式資

Oracle create tablespace 創建表空間語法詳解

系統回滾段語法判斷臨時 extent 數值 off offline 文件的 CREATE [UNDO] TABLESPACE tablespace_name [DATAFILE datefile_spec1 [,datefile_spec2] ..

hadoop生態圈的詳解

hadoop生態圈 hadoop學習線路 hadoop件組 hadoop 學習和使用hadoop有一年了，這裏主要分享一下對hadoop整體上的理解，分門別類的介紹一下相關組件，最後提供了建議的學習路線，希望對hadoop的初學者有參考作用。 1. Hadoop核心件組有哪些? 廣義

Hive UDAF開發詳解

-s 聚合而且 pri ros cal 關系方法調用 evaluator 明這篇文章是來自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不嚴格翻譯，因為翻譯的文章示例寫得比較

[持續交付實踐] pipeline：pipeline 使用之語法詳解

安裝工具詳細 href 3.0 def 實現能夠 action roo 一、引言 jenkins pipeline語法的發展如此之快用日新月異來形容也不為過，而目前國內對jenkins pipeline關註的人還非常少，相關的文章更是稀少，唯一看到w3c有篇相關的估計是

SQL*Loader 詳解

相關 let 最後登錄 bus repl () database eve res 在 Oracle 數據庫中，我們通常在不同數據庫的表間記錄進行復制或遷移時會用以下幾種方法：1. A 表的記錄導出為一條條分號隔開的 insert 語句，然後執行插入到 B 表中2. 建立數據

017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

二、數據傾斜

相關推薦