hive-索引(加優化)

阿新 • • 發佈：2019-02-06

1,索引

hive只有有限的索引功能，hive中沒有普通關係型資料庫中鍵的概念，但是還是可以對一些欄位建立索引來加速某些操作的，一張表的索引資料在另一張表中，說到索引我們也可以理解為這是hive提供的優化功能。他可以減少MapReduce的輸入資料量，因為在索引表中他把每個欄位的索引和偏移量都計算出來，可以說查詢的速度是很快了，尤其是大資料集

1，建立索引我們有一個現成的表zxz_5.
建立格式:
create index zxz_5_index
on table zxz_5 (nid)
as 'bitmap'
with deferred rebuild

注意:as 後面跟的是索引處理器，bitmap處理器普遍應用於排重後值較小的列;
    with deferred rebuild  他是必須要填加的 
2，我們建立出來的索引表可以show tables; 檢視

他的預設顯示就是:default__zxz_5_zxz_5_index__ 後面是我們指定的索引表名他們是連在一塊的

3，desc show 這個索引表,裡面就是指定的索引列，和一些桶欄位和偏移量；如果你指定的表是分割槽表，那麼他會顯示分割槽索引而不是全域性索引了。

4，我們要把重建索引表才能得到索引資料；

普通重建索引: alter index zxz_5_index on zxz_5 rebuild

分割槽重建索引:alter index zxz_5_index on zxz_5 partition (year="2018") rebuild

5,我們顯示一些索引表的資訊:

show fromated index on zxz_5;

6,刪除索引表:

drop index zxz_5_index on table zxz_5; 注意：如果我們把原表刪除索引表會自動刪除

2，hive優化:

MapReduce
-------------------
   Map : map -> partition -> sortAndSpill() --> Combiner
   hive.exec.compress.output=false                       //輸出檔案是否壓縮,預設false
   hive.exec.compress.intermediate=false               //啟用中間檔案是否壓縮,預設false
   hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec   //設定壓縮編解碼器,預設空
   hive.intermediate.compression.type                   //壓縮型別

hive調優
------------------
   1.使用explain解析查詢結果
       $beeline>explain [extended] select sum(id) from customers ;

limit優化
--------------------
1.
<property>
<name>hive.limit.optimize.enable</name>
<value>false</value>
<description>Whether to enable to optimization to trying a smaller subset of data for simple LIMIT first.</description>
</property>

<property>
<name>hive.limit.row.max.size</name>
<value>100000</value>
<description>When trying a smaller subset of data for simple LIMIT, how much size we need to guarantee each row to have at least.</description>
</property>
<property>
<name>hive.limit.optimize.limit.file</name>
<value>10</value>
<description>When trying a smaller subset of data for simple LIMIT, maximum number of files we can sample.</description>
</property>
<property>
<name>hive.limit.optimize.fetch.max</name>
<value>50000</value>
<description>
Maximum number of rows allowed for a smaller subset of data for simple LIMIT, if it is a fetch query.
Insert queries are not restricted by this limit.
</description>
</property>
<property>
<name>hive.limit.pushdown.memory.usage</name>
<value>0.1</value>
<description>
Expects value between 0.0f and 1.0f.
The fraction of available memory to be used for buffering rows in Reducesink operator for limit pushdown optimization.
</description>
</property>
<property>
<name>hive.limit.query.max.table.partition</name>
<value>-1</value>
<description>
This controls how many partitions can be scanned for each partitioned table.
The default value "-1" means no limit.
</description>
</property>

hadoop
-------------------
   1.local
       nothing!
       不需要啟動單獨程序。
       所有的java程式都在一個jvm中執行。

   2.偽分散式

   3.完全分散式


本地模式:
------------------------
   hive.exec.mode.local.auto=true                       //
   hive.exec.mode.local.auto.inputbytes.max=134217728   //
   hive.exec.mode.local.auto.input.files.max=4           //

JVM重用
------------------------
   [不推薦]
   SET mapred.job.reuse.jvm.num.tasks=5;               //在mapreduce-1使用，yarn不適用。
   com.it18zhang.myhadoop273_1211.join.reduce.App

   [yarn]
   //mapred-site.xml
   mapreduce.job.ubertask.enable=false                   //啟用當個jvm按序一些列task,預設false
   mapreduce.job.ubertask.maxmaps=9                   //最大map數>=9,只能調低。
   mapreduce.job.ubertask.maxreduces=1                   //目前只支援1個reduce.
   mapreduce.job.ubertask.maxbytes=128m               //

併發執行
-------------------------
   explain解釋執行計劃，對於沒有固定依賴關係的task，
   可以進行併發執行。
   hive.exec.parallel=true               //啟用mr的併發執行，預設false
   hive.exec.parallel.thread.number=8   //設定併發執行的job數，預設是8.

map端連線
------------------------
   SET hive.auto.convert.join=true;                   //
   SET hive.mapjoin.smalltable.filesize=600000000;       //檔案<= 指定值時可以啟用map連線。
   SET hive.auto.convert.join.noconditionaltask=true;   //不需要在select中使用/*+ streamtable(customers) */暗示.

map bucket端連線
-------------------------
   SET hive.auto.convert.join=true; --default false       //
   SET hive.optimize.bucketmapjoin=true; --default false   //

SkewJoin
-------------------------
   傾斜連線.
   SET hive.optimize.skewjoin=true;       //開啟傾斜優化
   SET hive.skewjoin.key=100000;           //key量超過該值，新的key傳送給未使用的reduce。
   SET hive.groupby.skewindata=true;       //在groupby中使用應用資料傾斜優化，預設false.

analyze
-----------------------
   對錶、partition,column level級別元資料進行統計，作為input傳遞給
   CBO(cost-based Optimizer)，會選擇成本最低查詢計劃來執行。
   analyze table customers compute statictics ;
   desc extended customers ;

beeline
---------------------------
   beeline -u jdbc:hive2://           //執行在本地模式下，沒有啟動hiveserver2伺服器。

create table tt (id int,hobbies array<String>,addr struct<province:string,city:string,street:string>,scores map<string,int> ) row format delimited fields terminated by ' ' collection items terminated by ',' map keys terminated by ':' lines terminated by '\n' stored as textfile ;

insert into tt values(1,array('1','2','3'),struct('province':"hebei",'city':'baoding','street':'renmin'),map('a':100,'b':200));

create table stru(id int,a struct<p1:string,p2:string>) row format delimited ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':' STORED AS TEXTFILE;

create table map(id int ,a map<string,int>) row format delimited fields terminated by ' ' collection items terminated by ',' map keys terminated by ':' lines terminated by '\n' stored as textfile ;

hive-索引(加優化)

1,索引 hive只有有限的索引功能，hive中沒有普通關係型資料庫中鍵的概念，但是還是可以對一些欄位建立索引來加速某些操作的，一張表的索引資料在另一張表中，說到索引我們也可以理解為這是hive提供的優化功能。他可以減少MapReduce的輸入資料量，因為在索引表中他把每

針對數據庫索引的優化

數據庫紅色而是 delet 計算 size del bsp create 本文主要對索引的創建及使用做詳細描寫敘述，至於為什麽要使用索引、使用索引帶來哪些優點、索引的分類等內容這裏不再贅述，假設想知道請參考相關文檔。一、怎樣正確的創建索引 1、對主鍵、外鍵建立索

[Elasticsearch] 部分匹配 (四) - 索引期間優化ngrams及索引期間的即時搜索

upd 並不是 _id plain 配置 n) -c 如果例子本章翻譯自Elasticsearch官方指南的Partial Matching一章。索引期間的優化(Index-time Optimizations) 目前我們討論的所有方案都是在查詢期間的。它們不

mysql-索引與優化

是否這就是位置 ica 函數行為不支持 size 空值寫在前面：索引對查詢的速度有著至關重要的影響，理解索引也是進行數據庫性能調優的起點。考慮如下情況，假設數據庫中一個表有10^6條記錄，DBMS的頁面大小為4K，並存儲100條記錄。如果沒有索引，查詢將對整個表進

MySQL的索引及其優化

告訴出現緩存 tab 關鍵字忽略 primary lba lec 前言索引對查詢的速度有著至關重要的影響，理解索引也是進行數據庫性能調優的起點。考慮如下情況，假設數據庫中一個表有10^6條記錄，DBMS的頁面大小為4K，並存儲100條記錄。如果沒有索引，查詢將對整個

HIVE—索引、分區和分桶的區別

處理拆分功能分布哈希函數對比 part 一致性進一步一、索引簡介 Hive支持索引，但是Hive的索引與關系型數據庫中的索引並不相同，比如，Hive不支持主鍵或者外鍵。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如減少MapRedu

解決phpstrom 啟動卡的問題和index索引加載慢的問題

rec 啟動 toolbar ble lsp ber 思路 opengl exc 第一，解決啟動卡的問題只要修改兩個Java虛擬機參數，就徹底解決了卡的問題了。操作步驟如下：找到C:\Program Files\JetBrains\PhpStorm 2018.2.2\

pickle序列化與反序列化（基礎）加優化

ads print follow load fun code 序列化與反序列化函數 tex import pickle def sh(name):print("hello,",name)#序列化存儲info={‘key‘:‘mode‘,‘lis‘:‘k

InnoDB 存儲引擎之索引和優化

觀察引用替換所在檢索選擇時也訪問修改表結構數據庫優化可以說是後臺開發中永恒的話題，數據庫的性能通常是整個服務吞吐量的瓶頸之所在。索引概述InnoDB中的表都是按照主鍵順序組織存放的，這種組織方式稱之為索引組織表，對比於MyISAM的表組織方式。在Inn

【mysql學習三】——索引搜尋優化

前言索引是sql語句優化的一部分，在實際的應用中當我們存在大量的資料需要查詢的時候，提升查詢效率最好的方式就是建立有效的索引，那索引是什麼，如何用，並且如何去建立一個有效的索引，這些問題本篇可以給你解惑！索引的基本操作 1.查詢表中所含有的索引： show index

6.MySQL優化索引合併優化

介紹索引合併訪問方法檢索具有多個範圍掃描的行併合並其結果合而為一。此訪問方法僅合併來自單個表的索引掃描，而不是跨多個掃描表。合併可以生成其基礎掃描的聯合，交叉或交叉聯合。下面舉個例子介紹一下如何使用: SELECT * FROM tbl_name WHERE key1 =

mysql高階包含索引建立優化_函式_儲存過程_觸發器_及遊標

Mysql 高階部分（1）索引（index）1 （2）檢視（view）2 （3）觸發器（trigger）6 （4）遊標（cursor）8 （5）事務(Transaction)10 （6）儲存過程（Stored Procedure）1

【MySQL資料庫】效能優化之索引及優化（一）

一、Mysql效能優化之影響效能的因素 1.商業需求的影響不合理的需求造成的資源投入產出，這裡就用一個看上去很簡單的功能分析。需求：一個論壇帖子的總量統計，附加要求：實時更新。從功能上看來是非常容易實現的，執行一條select count（*）from表名就可以得到結果，但是如果我們採

索引與優化

http://www.cnblogs.com/hustcat/archive/2009/10/28/1591648.html 寫在前面：索引對查詢的速度有著至關重要的影響，理解索引也是進行資料庫效能調優的起點。考慮如下情況，假設資料庫中一個表有10^6條記錄，DBMS的頁面大小為4K

MySQL索引與優化

概念索引儲存在記憶體中，為伺服器儲存引擎為了快速找到記錄的一種資料結構。基本操作為資料表新增索引： ALTER TABLE table_name ADD INDEX index_name (column_list) //普通索引 ALTER TABLE table_

索引庫優化

1什麼是索引庫索引庫是Lucene的重要的儲存結構，它包括二部份：原始記錄表，詞彙表原始記錄表：存放的是原始記錄資訊，Lucene為存入的內容分配一個唯一的編號 &

MySQL資料庫索引及優化

索引什麼是索引索引是用來提高資料庫效能的常用工具，索引就像資料的目錄一樣，通過索引可以快速找到需要的內容。索引的原理，加快查詢索引是建立了針對資料內容的排序結果的指標，根據指標快速定位所要的資料。索引的設計原則 1 索引列一般為where子句中的列或連線列子句中的列。 2&

理解MySQL--索引與優化【轉載】

注：很好的兩篇文章，原文地址：第一篇.http://feiyan.info/16.html &

結合innodb的B+樹索引來優化sql查詢一例

先上表結構： CREATE TABLE `quote_xxxxx` ( `instrument_id` varchar(20) NOT NULL, `time_type` varchar(20)

ElasticSearch批量更新索引的優化

1. 多執行緒程式插入可以根據伺服器情況開啟多個執行緒index，速度可以提高n倍, n>=2 2. 取消replias 如果有多臺機器，可以以每臺設定n個shards的方式，根據業務情況，可以考慮取消replias curl -XPUT ‘http://127

hive-索引(加優化)

相關推薦