企業常用Hive SQL配置

阿新 • • 發佈：2021-01-18

企業常用Hive SQL配置

在企業中使用Hive SQL需要一定的規範。一般在SQL編寫之前，需要進行規範的註釋新增，並設定特定的配置。

在SQL檔案開始，常見的註釋有：

[email protected]:所屬資料庫.結果表
[email protected]:描述
[email protected]:表型別，如每日彙總表
[email protected]:結果表
[email protected]:資料來源表1	別名1
[email protected]:資料來源表2	別名2
[email protected] 
:工號 作者
[email protected]:建立日期
[email protected]:修改人
[email protected]:修改日期
[email protected]:修改描述
[email protected]  版權

良好的註釋，便於程式碼的閱讀和版本的控制。

在註釋之後，會新增公用的調優引數：

-- 設定作業名，方便出錯後作業查詢
set mapred.job.name = TASK_NAME (${hivevar:statis_date});
-- 每個Map最大輸入大小,可以適當調整。
set mapred.max.split.size = 300000000;
-- 每個Map最小輸入大小,可以適當調整。
set mapred.min.split.size = 100000000;
-- 執行Map前進行小檔案合併
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
-- hive自動根據sql，選擇使用common join或者map join（關閉）
set hive.auto.convert.join = false;
-- 在Map-only的任務結束時合併小檔案
set hive.merge.mapfiles = true;
-- 在Map-Reduce的任務結束時不合並小檔案
set hive.merge.mapredfiles = false;
-- 合併檔案的大小,可以適當調整。
set hive.merge.size.per.task = 300000000;

這些引數中，首先進行了作業名的設定，然後對Map數量進行了設定，便於併發的提高；Map階段前進行小檔案合併，一定程度上緩解了小檔案帶來的影響。

接著可以設定Join的自動判斷，如果存在小表，則直接使用map join將表載入到記憶體中，而避免shuffle，這裡設定了關閉，可以根據需求來定。

最後設定任務結束時，小檔案的合併。

在此之後，便可以進行SQL的編寫。良好的開發規範，可以避免很多問題。當然在SQL檔案中，一般僅涉及作業調優，對叢集的公共調優部分會持久化到配置檔案中。

後話

如果有幫助的，記得點贊、關注。在公眾號《數舟》中，可以免費獲取專欄《資料倉庫》配套的視訊課程、大資料叢集自動安裝指令碼，並獲取進群交流的途徑。

我所有的大資料技術內容也會優先發布到公眾號中。如果對某些大資料技術有興趣，但沒有充足的時間，在群裡提出，我為大家安排分享。

公眾號自取：

公眾號

企業常用Hive SQL配置

技術標籤：大資料大資料hadoophive 企業常用Hive SQL配置在企業中使用Hive SQL需要一定的規範。一般在SQL編寫之前，需要進行規範的註釋新增，並設定特定的配置。

hive SQL的常用設定

遇到個情況，跑hive級聯insert資料報錯，可以嘗試換個hive計算引擎 1、配置mapreduce計算引擎

Spring Boot企業常用的starter示例詳解

SpringBoot簡介# Spring Boot是由Pivotal團隊提供的全新框架，其設計目的是用來簡化新Spring應用的初始搭建以及開發過程。該框架使用了特定的方式來進行配置，從而使開發人員不再需要定義樣板化的配置。通過這種方式

Sql Server資料庫常用Transact-SQL指令碼(推薦)

Transact-SQL Transact-SQL（又稱 T-SQL），是在 Microsoft SQL Server 和 Sybase SQL Server 上的 ANSI SQL 實現，與 Oracle 的 PL/SQL 性質相近（不只是實現 ANSI SQL，也為自身資料庫系統的特性提供實現支援），在

資料庫常用的sql語句彙總

SQL是目前使用最為廣泛的資料庫語言之一。這裡，我總結了在資料庫上，用SQL語言對資料排序、過濾和分組，以及表、檢視、聯結、子查詢、遊標、儲存過程和觸發器等內容。

SpringBoot常用application.properties配置

1、檔案上傳大小配置 SpringBoot單個上傳檔案的大小 spring.servlet.multipart.max-file-size=200MB SpringBoot總上傳檔案大小 spring.servlet.multipart.max-request-size=200MB 2、資料庫連線配置描述資料來源 sp

webpack之常用plugin的配置和使用

概述 webpack中的外掛主要是用來完成loader和配置無法完成的事情常見的幾種Plugins

Hive SQL 優化面試題整理

Hive優化目標在有限的資源下，執行效率更高常見問題：資料傾斜 map數設定 reduce數設定

hive的配置和HQL的查詢優化

hive屬於一種類SQL資料庫配置資訊　pwd =>/opt/bigdata/hadoop/hive110/conf 　hive110/conf/hive-site.xml配置

常用Oracle SQL集錦

常用dml和query開並行 --開並行 ALTER SESSION FORCE PARALLEL DML PARALLEL 16; ALTER SESSION FORCE PARALLEL QUERY PARALLEL 16;

常用log4j.properties配置檔案

# priority:debug<info<warn<error #you cannot specify every priority with different file for log4j

Mybatis動態SQL配置

使用 if where foreach標籤對對映配置檔案中sql語句進行動態配置 1、首先在dao介面中設定兩個查詢方法

Spring Boot入門學習必知道企業常用的Starter

SpringBoot企業常用的 starter SpringBoot簡介 SpringBoot執行 SpringBoot目錄結構整合JdbcTemplate

企業常用的幾個人力資源管理系統功能！

人力資源管理系統是一個整合系統，系統通常涵蓋人力資源各大的板塊，但大公司和小公司對系統功能的需求不一樣。小公司更多的可能只是需要部分板塊的功能，而大公司基本都是需要整個人力資源系統的功能，個別

常用的JVM配置引數

>>> 常用JVM配置引數大綱： n Trace（軌跡/痕跡）跟蹤引數 n 堆的分配引數

golang常用庫之配置檔案解析庫-viper使用詳解

golang常用庫：gorilla/mux-http路由庫使用 golang常用庫：配置檔案解析庫-viper使用 golang常用庫：操作資料庫的orm框架-gorm基本使用

ArcGIS10.2企業資料庫安裝與配置

雖然我很喜歡MySQL，但是ArcGIS10.2不支援，無奈之下只能安裝Oracle 11g了，安裝失敗後，無奈只能重置系統，害的我又花了大量時間配置電腦環境。坑一般在配置步驟。

sql server 與 mysql 中常用的SQL語句區別

sql server 與 mysql 的區別由於博主之前學過mysql，目前在學習SQL server，原來以為這兩個資料庫之間的sql語句應該不會有太大區別。但是學sql server（用的版本是2012）學久之後，發現與mysql 還是有很多不同

Hive sql 常見資料傾斜(型別不匹配、複雜join條件)的分析解決

技術標籤：大資料sql 本篇以hive sql解析器來討論問題，spark sql 的處理方法類似，大家可自行測試。

nginx從入門開始------2 常用命令及配置介紹

技術標籤：nginxnginx 常用命令及配置介紹 Nginx常用命令幫助命令：nginx -h 啟動Nginx伺服器：sudo nginx 檢視程序： ps aux | grep nginx 配置檔案路徑：/usr/local/nginx/conf/nginx.conf 檢查配置檔案：su

企業常用Hive SQL配置

企業常用Hive SQL配置

後話

相關推薦