hive的操作及優化

阿新 • • 發佈：2018-11-27

hive

hive案例

1、基站掉線率統計
    需求
        統計出掉線率最高的前10基站
    資料
        record_time：通話時間
        imei：基站編號
        cell：手機編號
        drop_num：掉話的秒數
        duration：通話持續總秒數
    步驟
        建表
            注意欄位型別和rowformat
            根據需求生成相應的結果表
        load資料
        寫sql，找出掉線率最高的基站
2、wordcount
    建表
        原始表
            create table docs(line string);
        結果表
            create table wc(word string, totalword int);
    載入資料
        load data local inpath '/tmp/wc' into table docs;
    統計資料
    查詢結果

hive引數

hive當中的引數、變數，都是以名稱空間開頭
通過${}方式進行引用，其中system、env下的變數必須以字首開頭
hive 引數設定方式
    修改配置檔案
        載入資料
        修改配置檔案 ${HIVE_HOME}/conf/hive-site.xml
    key-value
        啟動hive cli時，通過--hiveconf key=value的方式進行設定
    使用set命令
        進入cli之後，通過使用set命令設定
hive set命令
    在hive CLI控制檯可以通過set對hive中的引數進行查詢、設定
    set設定：
        set hive.cli.print.header=true;
    set檢視
        set hive.cli.print.header
    hive引數初始化配置
        當前使用者家目錄下的.hiverc檔案
        如:   ~/.hiverc
        如果沒有，可直接建立該檔案，將需要設定的引數寫到該檔案中，hive啟動執行時，會載入改檔案中的配置。
    hive歷史操作命令集
        ~/.hivehistory

動態分割槽

開啟支援動態分割槽
    set hive.exec.dynamic.partition=true;
        預設：false
    set hive.exec.dynamic.partition.mode=nostrict;
        預設：strict（至少有一個分割槽列是靜態分割槽）
        嚴格模式
相關引數
    set hive.exec.max.dynamic.partitions.pernode;
        每一個執行mr節點上，允許建立的動態分割槽的最大數量(100)
    set hive.exec.max.dynamic.partitions;
        所有執行mr節點上，允許建立的所有動態分割槽的最大數量(1000)
    set hive.exec.max.created.files;
        所有的mr job允許建立的檔案的最大數量(100000)
載入資料
    from psn21
    insert overwrite table psn22 partition(age, sex)  
    select id, name, likes, address, age, sex distribute by age, sex;

hive分桶

什麼是hive分桶
    分桶表是對列值取雜湊值的方式，將不同資料放到不同檔案中儲存。
    對於hive中每一個表、分割槽都可以進一步進行分桶。
    由列的雜湊值除以桶的個數來決定每條資料劃分在哪個桶中。
適用場景
    做資料抽樣
    map-join
怎麼用
    開啟支援分桶
        set hive.enforce.bucketing=true;
        注意
            一次作業產生的桶（檔案數量）和reduce task個數一致。
    往分桶表中載入資料
        insert into table bucket_table select columns from tbl;
        insert overwrite table bucket_table select columns from tbl;
如何進行抽樣查詢
    select * from bucket_table tablesample(bucket 1 out of 4 on columns);
    tablesample語法
        TABLESAMPLE(BUCKET x OUT OF y)
            x：表示從哪個bucket開始抽取資料
            y：必須為該表總bucket數的倍數或因子
    example
        當表總bucket數為32時
        TABLESAMPLE(BUCKET 2 OUT OF 16)，抽取哪些資料？
            共抽取2（32/16）個bucket的資料，抽取第2、第18（16+2）個bucket的資料
        TABLESAMPLE(BUCKET 3 OUT OF 256)，抽取哪些資料？
            第三個桶的1/8個bucket的資料

Lateral View

為什麼要用LV
    因為hql不支援一條語句中使用多個UDTF函式
LV的使用
    Lateral View用於和UDTF函式（explode、split）結合來使用。
    首先通過UDTF函式拆分成多行，再將多行結果組合成一個支援別名的虛擬表。
    主要解決在select使用UDTF做查詢過程中，查詢只能包含單個UDTF，不能包含其他欄位、以及多個UDTF的問題
example
    統計人員表中共有多少種愛好、多少個城市?
        select count(distinct(myCol1)), count(distinct(myCol2)) from psn2 
        LATERAL VIEW explode(likes) myTable1 AS myCol1 
        LATERAL VIEW explode(address) myTable2 AS myCol2, myCol3;

hive檢視

特點
    和關係型資料庫中的普通檢視一樣，hive也支援檢視
    不支援物化檢視
        oracle有
    只能查詢，不能做載入資料操作
    檢視的建立，只是儲存一份元資料，查詢檢視時才執行對應的子查詢
    view定義中若包含了ORDER BY/LIMIT語句，當查詢檢視時也進行ORDER BY/LIMIT語句操作，view當中定義的優先順序更高
    view支援迭代檢視
檢視操作
    建立檢視
        CREATE VIEW [IF NOT EXISTS] [db_name.]view_name 
          [(column_name [COMMENT column_comment], ...) ]
          [COMMENT view_comment]
          [TBLPROPERTIES (property_name = property_value, ...)]
          AS SELECT ... ;
    查詢檢視
        select colums from view;
    刪除檢視
        DROP VIEW [IF EXISTS] [db_name.]view_name;

hive索引

目的
    優化查詢以及檢索效能
索引操作
    建立索引
        指定索引表
            create index t1_index on table psn2(name) 
            as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild 
            in table t1_index_table;
        預設索引表
            create index t1_index on table psn2(name) 
            as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild;
    查詢索引
        show index on psn2;
    重建索引
        ALTER INDEX t1_index ON psn2 REBUILD;
    刪除索引
        DROP INDEX IF EXISTS t1_index ON psn2;

hive執行方式

四種執行方式
    命令列方式cli：控制檯模式
    指令碼執行方式（實際生產環境中用最多）
    JDBC方式：hiveserver2
    web GUI介面 （hwi、hue等）
Hive在CLi模式中
    與hdfs互動
        執行執行dfs命令
        例：dfs –ls /
    與Linux互動
        ！開頭
        例： !pwd
hive指令碼執行方式
    hive -e ""
    hive -e "">aaa
        覆蓋重定向
    hive -S -e "">aaa
        靜默模式
    hive -f file
    hive -i /home/my/hive-init.sql
    hive> source file (在hive cli中執行)

hive gui介面

下載原始碼包apache-hive-*-src.tar.gz
將hwi war包放在$HIVE_HOME/lib/
    製作方法：將hwi/web/*裡面所有的檔案打成war包
    cd apache-hive-1.2.1-src/hwi/web
    jar -cvf hive-hwi.war *
複製tools.jar(在jdk的lib目錄下)到$HIVE_HOME/lib下
修改hive-site.xml
        <name>hive.hwi.listen.host</name>
        <value>0.0.0.0</value>
        <name>hive.hwi.listen.port</name>
        <value>9999</value>
        <name>hive.hwi.war.file</name>
        <value>lib/hive-hwi.war</value>
啟動hwi服務(埠號9999)
    hive --service hwi
瀏覽器通過以下連結來訪問
    http://node03:9999/hwi/

hive許可權管理

三種許可權模型
    基於儲存的授權
        可以對Metastore中的元資料進行保護，但是沒有提供更加細粒度的訪問控制（例如：列級別、行級別）。
    基於SQL標準的Hive授權
        完全相容SQL的授權模型，推薦使用該模式。
        除支援對於使用者的授權認證，還支援角色role的授權認證
            role可理解為是一組許可權的集合，通過role為使用者授權
            一個使用者可以具有一個或多個角色
            預設包含另種角色：public、admin
    hive預設授權
        設計目的僅僅只是為了防止使用者產生誤操作，而不是防止惡意使用者訪問未經授權的資料。

hive優化

核心思想
    把Hive SQL 當做Mapreduce程式去優化
有些SQL不會轉為mr執行
    select僅查詢本表字段
    where僅對本表字段做條件過濾
顯示SQL的執行計劃
    Explain 顯示執行計劃
    EXPLAIN [EXTENDED] query
hive的執行方式
    本地模式
        對於小檔案，處理速度快，避免了許多資源排程環節
        開啟本地模式：
            set hive.exec.mode.local.auto=true;
        hive.exec.mode.local.auto.inputbytes.max預設值為128M
            表示載入檔案的最大值，若大於該配置仍會以叢集方式來執行！
    叢集模式
平行計算
    通過設定以下引數開啟並行模式
        set hive.exec.parallel=true;
        注意
            hive.exec.parallel.thread.number
                一次SQL計算中允許並行執行的job個數的最大值
            最大值應根據叢集來確定
                並行太多需要叢集的效能越高
                注意叢集的承載能力
嚴格模式
    通過設定以下引數開啟嚴格模式
        set hive.mapred.mode=strict;
        （預設為：nonstrict非嚴格模式）
        防止使用者的誤操作
    查詢限制
        1、對於分割槽表，必須新增where對於分割槽欄位的條件過濾；
            防止全表掃描
        2、order by語句必須包含limit輸出限制；
            order by只有一個reduce
        3、限制執行笛卡爾積的查詢。
            開發中不常用笛卡爾積
排序
    Order By
        對於查詢結果做全排序，只允許有一個reduce處理
        當資料量較大時，應慎用。嚴格模式下，必須結合limit來使用
    Sort By
        對於單個reduce的資料進行排序
        區域性有序
    Distribute By
        分割槽排序，經常和Sort By結合使用
        兩者結合可以做到全域性有序
    Cluster By
        相當於 Sort By + Distribute By
        Cluster By不能通過asc、desc的方式指定排序規則
        可通過 distribute by column sort by column asc|desc 的方式
join
    Join計算時，將小表（驅動表）放在join的左邊
        優先將小表載入到記憶體
    Map Join
        SQL方式，在SQL語句中新增MapJoin標記（mapjoin hint）
            SELECT  /*+ MAPJOIN(smallTable) */  smallTable.key,  bigTable.value 
            FROM  smallTable  JOIN  bigTable  ON  smallTable.key  =  bigTable.key;
        開啟自動的MapJoin
            自動的mapjoin
            通過修改以下配置啟用自動的mapjoin
                set hive.auto.convert.join = true;
                該引數為true時，Hive自動對左邊的表統計量，如果是小表就加入記憶體，即對小表使用Map join
                相關配置引數
                    hive.mapjoin.smalltable.filesize
                        大表小表判斷的閾值，如果表的大小小於該值則會被載入到記憶體中執行
                    hive.ignore.mapjoin.hint
                        預設值：true；是否忽略mapjoin hint 即mapjoin標記
                    hive.auto.convert.join.noconditionaltask
                        預設值：true；將普通的join轉化為普通的mapjoin時，是否將多個mapjoin轉化為一個mapjoin
                    hive.auto.convert.join.noconditionaltask.size
                        將多個mapjoin轉化為一個mapjoin時，其表的最大值
Side聚合
    通過設定以下引數開啟在Map端的聚合
        set hive.map.aggr=true
    相關配置引數
        hive.groupby.mapaggr.checkinterval
            map端group by執行聚合時處理的多少行資料（預設：100000）
        hive.map.aggr.hash.min.reduction
            進行聚合的最小比例（預先對100000條資料做聚合，若聚合之後的資料量/100000的值大於該配置0.5，則不會聚合）
        hive.map.aggr.hash.percentmemory
            map端聚合使用的記憶體的最大值
        hive.map.aggr.hash.force.flush.memory.threshold
            map端做聚合操作是hash表的最大可用內容，大於該值則會觸發flush
        hive.groupby.skewindata
            是否對GroupBy產生的資料傾斜做優化，預設為false
控制map及reduce數量
    控制map用的較少
        mapred.max.split.size
            一個split的最大值，即每個map處理檔案的最大值
        mapred.min.split.size.per.node
            一個節點上split的最小值
        mapred.min.split.size.per.rack
            一個機架上split的最小值
    控制reduce用的較多
        mapred.reduce.tasks
            強制指定reduce任務的數量
        hive.exec.reducers.bytes.per.reducer
            每個reduce任務處理的資料量
        hive.exec.reducers.max
            每個任務最大的reduce數
jvm重用
    適用場景
        1、小檔案個數過多
        2、task個數過多
    設定
        通過 set mapred.job.reuse.jvm.num.tasks=n; 來設定
    缺點
        設定開啟之後，task插槽會一直佔用資源，不論是否有task執行，直到所有的task即整個job全部執行完成時，才會釋放所有的task插槽資源！

hive的操作及優化

hive hive案例 1、基站掉線率統計需求統計出掉線率最高的前10基站資料 record_time：通話時間 imei：基站編號 cell：手機編號 drop_num：掉

Java I/O 操作及優化建議

java.net 底層 str 面向對象 div 選擇 static 右移 linux Java I/OI/O。即 Input/Output(輸入/輸出) 的簡稱。就 I/O 而言。概念上有 5 種模型：blocking I/O，nonblocking I/O。I/O

Hive學習(三)操作Hive的方式及優化

Hive 一、操作Hive的兩種方式 1、通過Beenline 2、通過JDBC 二、Hive的優化 1、Hive優化的思想： 2、優化的方式 (1)開啟本地模式 (2)開啟平行

【redis常用的鍵值操作及效能優化】

服務端啟動redis服務 { // -a:指定密碼 -h:指定主機 -p:指定埠 } //讓redis 服務中斷崩潰 //儲存和關閉 //後臺備份 //設定登入密碼 //redis-benchmark :效能測試 &

hive筆記-hive配置及基本操作

hive筆記 1、hive中涉及的概念： 1、hive介紹： 1、是建立在 Hadoop 上的資料倉庫基礎構架。它提供了一系列的工具，可以用來進行資料提取轉化載入（ETL）。 2、這是一種可以

MySQL資料庫（一）編譯安裝、安裝後優化操作及超戶忘記資料庫密碼的解決方法

MySQL的下載地址：http://www.dev.mysql.com/downloads 準備工作：解除安裝rpm方式安裝的mysql-server、mysql 　　　　　　rpm -qa | grep mysql 若存在，用rpm -e mysql-server mysql --nodeps命令解除

MySQL數據庫（一）編譯安裝、安裝後優化操作及超戶忘記數據庫密碼的解決方法

conf sco 試用初始化 configure 修改 load his 解決方法 MySQL的下載地址：http://www.dev.mysql.com/downloads 準備工作：卸載rpm方式安裝的mysql-server、mysql 　　　　　　rpm -qa

Hive 中各種Join 操作及例項

目錄：資料建表操作正文： 1、資料 a: +-------+---------+--+ | a.id | a.name | +-------+---------+--+ | 1 | a &

Hive表操作及管理

Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的Ma

資料庫基礎、原理、優化操作及方案

資料庫檔案讀寫就要考慮到效率問題！在資料庫中提高效率用到什麼，是事務！如果一條條插入，其實每次插入都會維持一個事務，也就相當於檔案的開啟和關閉，10000次的開啟和關閉是很消耗效能的，所以要在插入前使用BEGIN TRANSACTION開啟事務，再10000條資料插入完成

hadoop學習筆記-hive安裝及操作

軟體下載： Mysql: Hive: 安裝環境： OS:Oracle redhad 5.6 x86 64bit Hadoop: hadoop-0.20.2 Mysql:mysql-5.5.24 Hive:hive-0.8.1 1. 安裝mysql -

hive-常用操作及函式

select '我們' from file_cto_user_info limit 1 select 1 from file_cto_user_info where 'football' like 'foot____' limit 1 --注意：否定比較時候用NOT A L

HIVE基礎知識及優化（面試必備）

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。 Metastore （hive元資料） Hive將元資料儲存在資料庫中，比如m

hive分割槽分桶操作及載入資料

轉載來自：http://www.codeweblog.com/hive-%E5%9F%BA%E7%A1%80-1-%E5%88%86%E5%8C%BA-%E6%A1%B6-sort-merge-bucket-join/ Hive 已是目前業界最為通用、廉價的構建大資料

Hive原理及查詢優化

Hive是構建在Hadoop上的資料倉庫軟體框架，支援使用SQL來讀，寫和管理大規模資料集合。Hive入門非常簡單，功能非常強大，所以非常流行。通常來說，Hive只支援資料查詢和載入，但後面的版本也支援了插入，更新和刪除以及流式api。Ｈive具有目前Hadoop上最豐富

hive高級操作（優化，數據傾斜優化）

red 不可統計 usr 業務 _id 比較所有選項 2019/2/21 星期四 hive高級操作（優化，數據傾斜優化）分區表/桶表應用，skew，map-join //見hive的基本語法行列轉換 hive 優化hive 優化思想Explain 的使用

Hive小技巧及優化

字段使用表達 ofo ring gem follow 可用 pri 查詢除了ds 和 hr 之外的所有列SELECT (ds|hr)?+.+ FROM saleshttps://cwiki.apache.org/confluence/display/Hive/Langu

Rancher常用操作及名詞概念解析

開發隔離用戶登錄項目組做什麽前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

Rancher常用操作及名詞解析

用戶登錄項目組做什麽開發隔離前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

【Spark 深入學習-08】說說Spark分區原理及優化方法

學習格式讀取文件 tmc 資料數值計算詳解 shc 存儲介質本節內容 ------------------ · Spark為什麽要分區 · Spark分區原則及方法 · Spark分區案例 · 參考

hive的操作及優化

hive

相關推薦