Hive 常用操作

阿新 • • 發佈：2019-02-18

hive> SELECT age,grade FROM student1;

22 大三

23 大二

22	大三
24	大四
23	大三

Time taken: 0.072 seconds, Fetched: 5 row(s)

hive> SELECT DISTINCT age,grade FROM student1;

22 大三

23 大三

23 大二

24 大四

Time taken: 127.397 seconds, Fetched: 4 row(s)

hive> SELECT DISTINCT age FROM student1;

OK 22 23 24

Time taken: 106.21 seconds, Fetched: 3 row(s)

（5）limit限制查詢

hive> SELECT * FROM student1 LIMIT 4;

201501001 張三 22 男北京大三

201501003 李四 23 男上海大二

201501004 王娟 22 女廣州大三

201501010 周王 24 男深圳大四

Time taken: 0.253 seconds, Fetched: 4 row(s)

(6) GROUP BY 分組查詢

group by 分組查詢在資料統計時比較常用，接下來講解 group by 的使用。

1) 建立一個表 group_test，表的內容如下。

hive> create table group_test(uid STRING,gender STRING,ip STRING) row format delimited fields terminat

向 group_test 表中匯入資料。

hive> LOAD DATA LOCAL INPATH '/home/hadoop/hadoop/user.txt' INTO TABLE group_test;

2) 計算表的行數命令如下。

hive> select count(*) from group_test;

3) 根據性別計算去重使用者數。

首先建立一個表 group_gender_sum

hive> create table group_gender_sum(gender STRING,sum INT);

將表 group_test 去重後的資料匯入表 group_gender_sum。

hive> insert overwrite table group_gender_sum select group_test.gender,count(distinct group_test.uid)

同時可以做多個聚合操作，但是不能有兩個聚合操作有不同的 distinct 列。下面正確合法的聚合操作語句。

首先建立一個表 group_gender_agg

hive> create table group_gender_agg(gender STRING,sum1 INT,sum2 INT,sum3 INT);

將表 group_test 聚合後的資料插入表 group_gender_agg。

hive> insert overwrite table group_gender_agg select group_test.gender,count(distinct group_test.uid),

但是，不允許在同一個查詢內有多個 distinct 表示式。下面的查詢是不允許的。

hive> insert overwrite table group_gender_agg select group_test.gender,count(distinct group_test.uid),

這條查詢語句是不合法的，因為 distinct group_test.uid 和 distinct group_test.ip 操作了

uid 和 ip 兩個不同的列。

(7) ORDER BY 排序查詢

ORDER BY 會對輸入做全域性排序，因此只有一個 Reduce（多個 Reduce 無法保證全域性有序）會導致當輸入規模較大時，需要較長的計算時間。使用 ORDER BY 查詢的時候，為了優

化查詢的速度，使用 hive.mapred.mode 屬性。

hive.mapred.mode = nonstrict;(default value/預設值) hive.mapred.mode=strict;

與資料庫中 ORDER BY 的區別在於，在 hive.mapred.mode=strict 模式下必須指定limit ，

否則執行會報錯。

hive> set hive.mapred.mode=strict;

hive> select * from group_test order by uid limit 5; Total jobs = 1

.............

Total MapReduce CPU Time Spent: 4 seconds 340 msec

OK
01	male	192.168.1.2
01	male	192.168.1.32
01	male	192.168.1.26
01	male	192.168.1.22
02	female	192.168.1.3

Time taken: 58.04 seconds, Fetched: 5 row(s)

(8) SORT BY 查詢

sort by 不受 hive.mapred.mode 的值是否為 strict 和 nostrict 的影響。sort by 的資料只

能保證在同一個 Reduce 中的資料可以按指定欄位排序。

Hive-常用操作

前提條件：安裝好hadoop2.7.3（LInux系統下）安裝好hive2.3.3（Linux系統下）安裝好Xampp（Windows系統下），併成功用Navicat連線Xampp Mysql。參考：Navicat連線Xampp資料庫準備源資料： 1.

hive-常用操作及函式

select '我們' from file_cto_user_info limit 1 select 1 from file_cto_user_info where 'football' like 'foot____' limit 1 --注意：否定比較時候用NOT A L

Hive 常用操作

hive> SELECT age,grade FROM student1;OK22 大三23 大二22大三24大四23大三Time taken: 0.072 seconds, Fetched: 5 row(s)hive> SELECT DISTINCT age,grade FROM student

hive的常用操作

文件夾 char external list 正常 ted format ont light 1、hive的數據類型 tinyint/smallint/int/bigint tinyint:從 0 到 255 的整型數據 smallint:從 0 到 65535 的整型數

Hive 修改表結構常用操作

新增列 add columns 　　　　alter table table_name add columns (id int comment '主鍵ID' ) ; 　　　　預設在表所有欄位之後，分割槽欄位之前。替換列 replace columns ,會替換所有列

Hive命令列常用操作（資料庫操作，表操作）

資料庫操作檢視所有的資料庫 hive> show databases ; 使用資料庫default hive> use default; 檢視資料庫資訊 hive > describe data

hive (二) ----- hive的常用操作

並且 class cluster clu spa task group by partition mapr 一、hive操作 1.創建表 CREATE TABLE t3(id int,name string,age int) PARTITIONED BY (Year IN

hive中常用操作

本篇文章主要介紹一下hive的常用sql 操作新增分割槽一次新增一個分割槽 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER T

Hive常用分割槽操作命令20180805

環境：hadoop-2.7 , hive 2.1 操作hive資料倉庫中的表有個前提，就是被操作的表必須是有分割槽的。需要在建表的時候指定分割槽，具體如何建立有分割槽的表，請看我的另一篇文章《在hive中建立分割槽表,再關聯到hdfs有關位置,而不需匯入資料到

HIVE分割槽常用操作

分割槽常用操作 1.檢視分割槽表中有哪些分割槽 show partitions table_name; SHOW PARTITIONS tomcat_log PARTITION(year='2019'); 2.查詢某個分割槽下的資料根據分割槽查詢資料 select tabl

Hive常用命令（三）--DML操作

Data Manipulation Language：資料操縱語言資料匯入 1、load模式 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PA

HIVE的常用操作-建庫和表-插入資料

hive的安裝（遠端模式）點選開啟連結使用hive ----------------------- 啟動hadoop 啟動hive 建立資料庫： create database myhive; 檢視資料庫： hive (default)> s

Hive常用的SQL命令操作

1、表相關SQL操作 1.1、建立內部表 CREATE TABLE table_name (name string); select * from table_name LOAD DATA LOCAL INPATH '/litong/data/20170507' ove

hadoop中hive常用的交互式操作

-i ken cif init mas variable rom sil ati hive的幫助命令： [[email protected] tmp]$ hive -help usage: hive -d,--define <key=value&

Hive 系列（四）—— Hive 常用 DDL 操作

一、Database 1.1 檢視資料列表 show databases; 1.2 使用資料庫 USE database_name; 1.3 新建資料庫語法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SC

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL 關鍵字代表

byte 常用操作

exceptio cat 移動 ror 位置 all const 長度 ear /** * 低位在前，高位在後 * * @param data * @return */ private byte[] intToBytes(int value) {

Rancher常用操作及名詞概念解析

開發隔離用戶登錄項目組做什麽前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

Rancher常用操作及名詞解析

用戶登錄項目組做什麽開發隔離前言：關於Rancher安裝請參考Rancher-Server部署，此文操作過程是基於以上部署環境進行演示。關於Rancher是做什麽，能完成哪些功能，有哪些優據點請自行了解。本文主要介紹以下幾點什麽是環境如何添加環境什麽是應用棧如何添

VPS常用操作（自用）

stat art ado ssserver exe 常用 gin lsp sse 1.screen 用來開啟進程，關閉ssh或命令行後扔可以繼續運行 screen screen -list screen -r xx screen -S PID -X quit 2.

Hive 常用操作

（5）limit限制查詢

(6) GROUP BY 分組查詢

1) 建立一個表 group_test，表的內容如下。

2) 計算表的行數命令如下。

3) 根據性別計算去重使用者數。

(7) ORDER BY 排序查詢

(8) SORT BY 查詢

相關推薦