hive SQL 產生結果檔案的問題

阿新 • • 發佈：2019-01-20

每次hive sql執行完會產生幾個結果檔案？
預設的hive結果檔名叫什麼？
這些結果檔案我們可以控制麼，例如改名？個數？

好的下面來解答一下：

一般來說，每次hivesql執行完畢之後只會生成一個結果檔案，名稱預設為000000_0，如果存在類似於insert into這種語句則每一次insert into 成功之後都會產生一個結果檔案，類似於000000_0_copy_1,多次insert into 產生的檔案依次類推。
預設檔名為000000_0，000000_0_copy_1以及類似的000000_X等
這些檔名是hadoop和hive預設產生的一般的話是不能更改的，修改的話需要從原始碼入手或者通過hadoop命令的形式直接去操作hdfs檔案，建議後者；結果檔案的個數這個就有點複雜了，涉及到具體的sql語句和reducer的個數以及其他配置。

下面來簡單分析下第三個問題：

與reducer個數有關：

多個reducer就會有多個結果檔案，預設hive會自己去設定reducer的個數，reduce個數的設定極大影響任務執行效率，不指定reduce個數的情況下，Hive會猜測確定一個reduce個數，可以在hive執行sql的時，打印出來，如下：

Number of reduce tasks not specified. Estimated from input data size: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

set mapred.reduce.tasks=<number>

reduce數量由以下三個引數決定：

mapred.reduce.tasks(強制指定reduce的任務數量)

hive.exec.reducers.bytes.per.reducer（每個reduce任務處理的資料量，預設為1000^3=1G）

hive.exec.reducers.max（每個任務最大的reduce數，預設為999）

計算reducer數的公式很簡單N=min( hive.exec.reducers.max ，總輸入資料量/ hive.exec.reducers.bytes.per.reducer )

如果reduce的輸入（map的輸出）總大小不超過1G,那麼只會有一個reduce任務。

只有一個reduce的場景：

a、沒有group by 的彙總

b、order by

c、笛卡爾積

如何更改reducer個數，可以參考文末給出的參考連結，感謝連結的作者

與SQL有關：

sql有insert into語句，那麼每次insert 都會產生一個檔案

sql中有order by關鍵字，只能由一個reducer來處理，所以只會產生一個結果檔案

沒有group by的彙總，比如把select pt,count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04' group by pt; 寫成 select count(1) from popt_tbaccountcopy_mes where pt = '2012-07-04'，在輸入小於hive.exec.reducers.bytes.per.reducer的情況下後者只有一個reducer

等等

hive SQL 產生結果檔案的問題

下面來簡單分析下第三個問題：

與reducer個數有關：

與SQL有關：

hive SQL 產生結果檔案的問題

hive SQL查詢結果新增行號

hive SQL查詢結果添加行號

Hive SQL查詢結果寫入指定hdfs路徑

在xshell中執行hive sql 並將結果寫入另一個txt文字中

hive sql給查詢結果加上一列序號

postgresql匯出sql執行結果到檔案的方法

便捷輸出sql查詢結果為TXT/CSV檔案

EF執行SQL語句結果和直接在Sqlserver中執行結果不一致

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

數據遷移過程中hive sql調優

記一次偽*sql查詢結果不一致的

017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

016-Hadoop Hive sql語法詳解6-job輸入輸出優化、數據剪裁、減少job數、動態分區

將sql 查詢結果導出到excel

SQL 操作結果集 -並集、差集、交集、結果集排序

sql查詢結果存入DataTable，然後從DataTable取數據

hibernate使用setResultTransformer()將SQL查詢結果放入集合中

Hive sql和Presto sql的一些對比

篩選出sql 查詢結果中不包含某個字符

hive SQL 產生結果檔案的問題

下面來簡單分析下第三個問題：

與reducer個數有關：

與SQL有關：

相關推薦