hive的調優經驗

阿新 • • 發佈：2020-08-29

1.hive本身對union這樣的命令進行了優化

2.hdfs資料本地化率對hive效能產生影響

在資料大小一定的情況下，500個128M的檔案和2個30G的檔案跑hive任務，效能是有差異的，兩者最大的區別在於，後者在讀取檔案時，需要跨網路傳輸，而前者為本地讀寫。資料本地化率問題。

3.不同資料格式對效能的提升

　　hive提供text，sequenceFile，RCFile，ORC，Parquest等格式。

　　sequenceFile是一個二進位制key/value對結構的平面檔案，廣泛應用於MapReduce中。

　　Parquet時一種列式儲存格式，相容多種資料引擎，MapReduce和Spark。

　　ORC時對RCFile的一種優化，主流選擇之一。

4.分割槽表和分桶表對效能的提升

　分割槽表：

總結：分割槽表的意思，其實想明白了就很簡單。就是在系統上建立資料夾，把分類資料放在不同資料夾下面，加快查詢速度。

關鍵點1：partitioned by (dt String,country string); 建立表格時，指明瞭這是一個分割槽表。將建立雙層目錄，第一次目錄的名字和第二層目錄名字規則

PARTITIONED BY子句中定義列，是表中正式的列，成為分割槽列。但是資料檔案中並沒有這些值，僅代表目錄。

關鍵點2： partition (dt='2001-01-01',country='GB'); 上傳資料時，把資料分別上傳到不同分割槽中。也就是分別放在不同的子目錄下。

理解分割槽就是資料夾分而治之，查詢的時候可以當作列名來顯示查詢的範圍。

　動態分割槽表：　

關閉嚴格分割槽模式
動態分割槽模式時是嚴格模式，也就是至少有一個靜態分割槽。
set hive.exec.dynamic.partition.mode=nonstrict    //分割槽模式，預設nostrict
set hive.exec.dynamic.partition=true            //開啟動態分割槽,預設true
set hive.exec.max.dynamic.partitions=1000        //最大動態分割槽數,預設1000

為什麼要使用動態分割槽呢，我們舉個例子，假如中國有50個省，每個省有50個市，每個市都有100個區，那我們都要使用靜態分割槽要使用多久才能搞完。所有我們要使用動態分割槽。

動態分割槽預設是沒有開啟。開啟後預設是以嚴格模式執行的，在這種模式下需要至少一個分割槽欄位是靜態的。
 
這有助於阻止因設計錯誤導致導致查詢差生大量的分割槽。列如：使用者可能錯誤使用時間戳作為分割槽表字段。然後導致每秒都對應一個分割槽！這樣我們也可以採用相應的措施:

分桶表：

每一個表或者分割槽，Hive可以進一步組織成桶。也就是說，桶為細粒度的資料範圍劃分。

分桶規則：對分桶欄位值進行雜湊，雜湊值除以桶的個數求餘，餘數決定了該條記錄在哪個桶中，也就是餘數相同的在一個桶中。分桶不會改變原有表和原有分割槽目錄的組織方式。只是更改了資料在檔案中的分佈。

優點：1、提高join查詢效率 2、提高抽樣效率

可以用 desc formatted [表名] 來檢視目錄組織方式

hive的調優經驗

1.hive本身對union這樣的命令進行了優化 2.hdfs資料本地化率對hive效能產生影響在資料大小一定的情況下，500個128M的檔案和2個30G的檔案跑hive任務，效能是有差異的，兩者最大的區別在於，後者在讀取檔案時，需要跨

JVM效能調優經驗總結

本文轉載自JVM效能調優經驗總結說明調優是一個循序漸進的過程，必然需要經歷多次迭代，最終才能換取一個較好的折中方案。

JVM調優經驗分享

>>> 前言一、JVM調優知識背景簡介二、JVM調優引數簡介三、JVM調優目標

面試調優真經！美團四面因為沒有調優經驗被秒掛！閉關57天吃透效能優化真經，秒進騰訊！

為什麼Java開發人員應該掌握效能調優知識點？記住，有關效能調優的知識是高階Java開發人員的重要方面之一，可以使您與眾不同。Java是目前軟體開發領域中使用最廣泛的程式語言之一。Java應用程式在許多垂直

hive調優

10.hive調優 10.1 Fetch抓取 Hive中對某些情況的查詢可以不必使用MapReduce計算。例如：SELECT * FROM score;在這種情況下，Hive可以簡單地讀取score對應的儲存目錄下的檔案，然後輸出查詢結果到控制檯。通過設定hiv

不可不知的十大Hive調優技巧最佳實踐

ApacheHive是建立在ApacheHadoop之上的資料倉庫軟體專案，用於提供資料查詢和分析。Hive是Hadoop在HDFS上的SQL介面，它提供了類似於SQL的介面來查詢儲存在與Hadoop整合的各種資料庫和檔案系統中的資料。可以說從事資

Hive 調優程式碼準備

1 # coding: utf-8 2 import random 3 import datetime 4 import sys 5 from imp import reload 6 7 reload(sys)

全網首發｜阿里資深技術專家數倉調優經驗分享（上）

簡介：本篇文章總結了AnalyticDB表的設計的最佳經驗、資料寫入的最佳經驗、高效查詢的最佳實踐，以及一些常見的問題。

Hive 調優

HIve調優 1、Fetch抓取機制我們在剛開始學習hive的時候,都知道hive可以降低程式設計師的學習成本和開發成本,具體表現就在於可以將SQL語句轉換成MapReduce程式執行。但是Hive中對某些情況的查詢可以不必使用MapRe

第十章 Hive調優【行列過濾及謂詞下推】

1. 列處理 :說明 : 避免使用 select *,有分割槽時,要指定分割槽2. 行處理 :關聯原則 : 在關聯操作時,能先where的儘量先where,減少資料集

JVM調優之經驗

在生產系統中，高吞吐和低延遲一直都是JVM調優的最終目標，但這兩者恰恰又是相悖的，魚和熊掌不可兼得，所以在調優之前要清楚舍誰而取誰。一般計算任務和元件服務會偏向高吞吐，而web展示則偏向低延遲才會帶來更好的

Hive(十二)【調優】

目錄1.Fetch抓取2.本地模式3.表的優化3.1大小表join3.2大表Join大表3.3map join3.4group By3.5 count(distinct)3.6笛卡爾積3.7行列過濾3.8 分割槽、分桶4.合理設定map和reduce數4.1輸入資料量大增加map數4.2小檔案合

20.Hive企業調優

一、Fetch抓取 Fetch抓取是指，Hive中對某些情況的查詢可以不必使用MapReduce計算。例如：SELECT * FROM EMP;在這種情況下，Hive可以簡單地讀取EMP對應的儲存目錄下的檔案，然後輸出查詢結果到控制檯。

基於rt-thread功耗調優與PM管理實戰經驗分享-日誌篇

基礎篇概念，基礎，理解什麼是功耗除錯篇開始搭環境，動手調起來驅動篇想要調功耗，程式碼也要有

Hive 大資料表效能調優

Hive表是一種依賴於結構化資料的大資料表。資料預設儲存在 Hive 資料倉庫中。為了將它儲存在特定的位置，開發人員可以在建立表時使用 location 標記設定位置。Hive 遵循同樣的 SQL 概念，如行、列和模式。

資料遷移過程中hive sql調優

本文記錄的是，在資料處理過程中，遇到了一個sql執行很慢，對一些大型的hive表還會出現OOM，一步一步通過引數的設定和sql優化，將其調優的過程。

Hive引數與效能企業級調優

Hive作為大資料平臺舉足輕重的框架，以其穩定性和簡單易用性也成為當前構建企業級資料倉庫時使用最多的框架之一。

JVM效能優化--JVM引數配置，使用JMeter簡單測試配合說明引數調優

一、JVM引數配置 1、常見引數配置 -XX:+PrintGC每次觸發GC的時候列印相關日誌 -XX:+UseSerialGC序列回收

ElasticSearch讀寫底層原理及效能調優

##一，讀寫底層原理 Elasticsearch寫人資料的過程 1）客戶端選擇一個node傳送請求過去，這個node就是coordinating node（協調節點）

Oracle調優之利用max與leftjoin來進行不同表之間匹配

需求有兩個不同的表，A表是基礎資料，B表根據A表的某個不重複關鍵字加其他一些條件查詢出一條或幾條資料，取其中一條資料。並且利用此資料某個關鍵字再在B表中查詢下一層級資料，最終將A表的對應一條資料，B表查詢出

hive的調優經驗

1.hive本身對union這樣的命令進行了優化

2.hdfs資料本地化率對hive效能產生影響

3.不同資料格式對效能的提升

4.分割槽表和分桶表對效能的提升

相關推薦