HIVE SQL 基本語法
1.DDL 操作 1.建表 2.3.建立簡單表 4.建立外部表 5.建分割槽表 6.建Bucket表 7.建立表並建立索引欄位ds 8.複製一個空表 9.顯示所有表 10.按正條件正則表示式顯示錶 11.修改表結構 12.表新增一列 13.新增一列並增加列欄位註釋 14.更改表名 15.刪除列 16.增加刪除分割槽 17.重命名錶 18.修改列的名字型別位置註釋 19.表新增一列 20.新增一列並增加列欄位註釋 21.增加更新列 22.增加表的元資料資訊 23.改變表文件格式與組織 24.建立刪除檢視 25.建立資料庫 26.顯示命令 2.DML 操作元資料儲存 1.向資料表內載入檔案 2.3.載入本地資料同時給定分割槽資訊 4.OVERWRITE 5.將查詢結果插入Hive表 6.將查詢結果寫入HDFS檔案系統 7.INSERTINTO 3.DQL 操作資料查詢SQL 1.1 基本的Select操作 2.例如 3.按先件查詢 4.將查詢資料輸出至目錄 5.將查詢結果輸出至本地目錄 6.選擇所有列到本地目錄 7.將一個表的統計結果插入另一個表中 8.將多表資料插入到同一表中 9.將檔案流直接插入檔案 10.2 基於Partition的查詢 11.3 Join 4.從SQL到HiveQL應轉變的習慣 1.Hive不支援等值連線 2.分號字元 3.IS NOT NULL 4.Hive不支援將資料插入現有的表或分割槽中 5.hive不支援INSERT INTO UPDATE DELETE操作 6.hive支援嵌入mapreduce程式來處理複雜的邏輯 7.hive支援將轉換後的資料直接寫入不同的表還能寫入分割槽hdfs和本地目錄 5.實際示例 1.建立一個表 2.載入資料到表中 3.統計資料總量 4.現在做一些複雜的資料分析 5.生成資料的周資訊 6.使用對映指令碼 7.將資料按周進行分割 8.處理Apache Weblog 資料
Hive 是基於Hadoop 構建的一套資料倉庫分析系統,它提供了豐富的SQL查詢方式來分析儲存在Hadoop 分散式檔案系統中的資料,可以將結構
化的資料檔案對映為一張資料庫表,並提供完整的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行執行,通過自己的SQL 去查詢分析需
要的內容,這套SQL 簡稱Hive SQL,使不熟悉mapreduce 的使用者很方便的利用SQL 語言查詢,彙總,分析資料。而mapreduce開發人員可以把
己寫的mapper 和reducer 作為外掛來支援Hive 做更復雜的資料分析。
它與關係型資料庫的SQL 略有不同,但支援了絕大多數的語句如DDL、DML 以及常見的聚合函式、連線查詢、條件查詢。HIVE不適合用於聯機
online)事務處理,也不提供實時查詢功能。它最適合應用在基於大量不可變資料的批處理作業。
HIVE的特點:可伸縮(在Hadoop的叢集上動態的新增裝置),可擴充套件,容錯,輸入格式的鬆散耦合。
Hive 的官方文件中對查詢語言有了很詳細的描述,請參考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的內容大部分翻譯自該頁面,期間加入了一些在使用過程中需要注意到的事項。
1. DDL 操作
•建表 •刪除表 •修改表結構 •建立/刪除檢視 •建立資料庫 •顯示命令
1.2 建表:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]
•CREATE TABLE 建立一個指定名字的表。如果相同名字的表已經存在,則丟擲異常;使用者可以用 IF NOT EXIST 選項來忽略這個異常
•EXTERNAL 關鍵字可以讓使用者建立一個外部表,在建表的同時指定一個指向實際資料的路徑(LOCATION)
•LIKE 允許使用者複製現有的表結構,但是不復制資料
•COMMENT可以為表與欄位增加描述
•ROW FORMAT
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
使用者在建表的時候可以自定義 SerDe 或者使用自帶的 SerDe。如果沒有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,將會使用自帶的 SerDe。在建表的時候,使用者還需要為表指定列,使用者在指定表的列的同時也會指定自定義的 SerDe,Hive 通過 SerDe 確定表的具體的列的資料。
•STORED AS
SEQUENCEFILE
| TEXTFILE
| RCFILE
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
如果檔案資料是純文字,可以使用 STORED AS TEXTFILE。如果資料需要壓縮,使用 STORED AS SEQUENCE 。
1.3 建立簡單表:
hive> CREATE TABLE pokes (foo INT, bar STRING);
1.4 建立外部表:
CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User', country STRING COMMENT 'country of origination') COMMENT 'This is the staging page view table' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054' STORED AS TEXTFILE LOCATION '<hdfs_location>';
1.5 建分割槽表
CREATE TABLE par_table(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(date STRING, pos STRING) ROW FORMAT DELIMITED ‘\t’ FIELDS TERMINATED BY '\n' STORED AS SEQUENCEFILE;
1.6 建Bucket表
CREATE TABLE par_table(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(date STRING, pos STRING) CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS ROW FORMAT DELIMITED ‘\t’ FIELDS TERMINATED BY '\n' STORED AS SEQUENCEFILE;
1.7 建立表並建立索引欄位ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
1.8 複製一個空表
CREATE TABLE empty_key_value_store
LIKE key_value_store;
例子
create table user_info (user_id int, cid string, ckid string, username string) row format delimited fields terminated by '\t' lines terminated by '\n';
匯入資料表的資料格式是:欄位之間是tab鍵分割,行之間是斷行。
及要我們的檔案內容格式:
100636 100890 c5c86f4cddc15eb7 yyyvybtvt
100612 100865 97cc70d411c18b6f gyvcycy
100078 100087 ecd6026a15ffddf5 qa000100
1.9 顯示所有表:
hive> SHOW TABLES;
1.10 按正條件(正則表示式)顯示錶,
hive> SHOW TABLES '.*s';
•增加分割槽、刪除分割槽 •重命名錶 •修改列的名字、型別、位置、註釋 •增加/更新列 •增加表的元資料資訊
1.21 表新增一列:
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
1.22 新增一列並增加列欄位註釋
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
1.23 更改表名:
hive> ALTER TABLE events RENAME TO 3koobecaf;
1.24 刪除列:
hive> DROP TABLE pokes;
1.25 增加、刪除分割槽
•增加
ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ...
partition_spec:
: PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)
•刪除
ALTER TABLE table_name DROP partition_spec, partition_spec,...
1.26 重命名錶
ALTER TABLE table_name RENAME TO new_table_name
1.27 修改列的名字、型別、位置、註釋:
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
這個命令可以允許改變列名、資料型別、註釋、列位置或者它們的任意組合
1.28 表新增一列:
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
1.29 新增一列並增加列欄位註釋
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
1.30 增加/更新列
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
• ADD是代表新增一欄位,欄位位置在所有列後面(partition列前)
REPLACE則是表示替換表中所有欄位。
1.31 增加表的元資料資訊
ALTER TABLE table_name SET TBLPROPERTIES table_properties table_properties:
:[property_name = property_value…..]
•使用者可以用這個命令向表中增加metadata
1.31改變表文件格式與組織
ALTER TABLE table_name SET FILEFORMAT file_format
ALTER TABLE table_name CLUSTERED BY(userid) SORTED BY(viewTime) INTO num_buckets BUCKETS
這個命令修改了表的物理儲存屬性
1.4 建立/刪除檢視
CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ][COMMENT view_comment][TBLPROPERTIES (property_name = property_value, ...)] AS SELECT
•增加檢視
•如果沒有提供表名,檢視列的名字將由定義的SELECT表示式自動生成
•如果修改基本表的屬性,檢視中不會體現,無效查詢將會失敗
•檢視是隻讀的,不能用LOAD/INSERT/ALTER
•DROP VIEW view_name
•刪除檢視
1.5 建立資料庫
CREATE DATABASE name
1.6 顯示命令
•show tables; •show databases; •show partitions ; •show functions •describe extended table_name dot col_name
2. DML 操作:元資料儲存
hive不支援用insert語句一條一條的進行插入操作,也不支援update操作。資料是以load的方式載入到建立好的表中。資料一旦匯入就不可以修改。
DML包括:INSERT插入、UPDATE更新、DELETE刪除
•向資料表內載入檔案
•將查詢結果插入到Hive表中
•0.8新特性 insert into
2.1.0 向資料表內載入檔案
•LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]
•Load 操作只是單純的複製/移動操作,將資料檔案移動到 Hive 表對應的位置。
•filepath
•相對路徑,例如:project/data1
•絕對路徑,例如: /user/hive/project/data1
•包含模式的完整 URI,例如:hdfs://namenode:9000/user/hive/project/data1
例如:
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
2.1.1 載入本地資料,同時給定分割槽資訊
•載入的目標可以是一個表或者分割槽。如果表包含分割槽,必須指定每一個分割槽的分割槽名
•filepath 可以引用一個檔案(這種情況下,Hive 會將檔案移動到表所對應的目錄中)或者是一個目錄(在這種情況下,Hive 會將目錄中的所有檔案移動至表所對應的目錄中)
LOCAL關鍵字
•指定了LOCAL,即本地
•load 命令會去查詢本地檔案系統中的 filepath。如果發現是相對路徑,則路徑會被解釋為相對於當前使用者的當前路徑。使用者也可以為本地檔案指定一個完整的 URI,比如:file:///user/hive/project/data1.
•load 命令會將 filepath 中的檔案複製到目標檔案系統中。目標檔案系統由表的位置屬性決定。被複制的資料檔案移動到表的資料對應的位置
例如:載入本地資料,同時給定分割槽資訊:
hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
• 沒有指定LOCAL
如果 filepath 指向的是一個完整的 URI,hive 會直接使用這個 URI。 否則
•如果沒有指定 schema 或者 authority,Hive 會使用在 hadoop 配置檔案中定義的 schema 和 authority,fs.default.name 指定了 Namenode 的 URI
•如果路徑不是絕對的,Hive 相對於 /user/ 進行解釋。 Hive 會將 filepath 中指定的檔案內容移動到 table (或者 partition)所指定的路徑中
2.1.2 載入DFS資料,同時給定分割槽資訊:
hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous.
OVERWRITE
•指定了OVERWRITE
•目標表(或者分割槽)中的內容(如果有)會被刪除,然後再將 filepath 指向的檔案/目錄中的內容新增到表/分割槽中。
•如果目標表(分割槽)已經有一個檔案,並且檔名和 filepath 中的檔名衝突,那麼現有的檔案會被新檔案所替代。
2.1.3 將查詢結果插入Hive表
•將查詢結果插入Hive表
•將查詢結果寫入HDFS檔案系統
•基本模式
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
•多插入模式
FROM from_statement
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1
[INSERT OVERWRITE TABLE tablename2 [PARTITION ...] select_statement2] ...
•自動分割槽模式
INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) select_statement FROM from_statement
2.1.5 將查詢結果寫入HDFS檔案系統
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2]
•資料寫入檔案系統時進行文字序列化,且每列用^A 來區分,\n換行
2.1.6 INSERT INTO
INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
3. DQL 操作:資料查詢SQL
•基本的Select 操作 •基於Partition的查詢 •Join
3.1 基本的Select 操作
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list [HAVING condition]]
[ CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]
]
[LIMIT number]
•使用ALL和DISTINCT選項區分對重複記錄的處理。預設是ALL,表示查詢所有記錄。DISTINCT表示去掉重複的記錄
•Where 條件
•類似我們傳統SQL的where 條件
•目前支援 AND,OR ,0.9版本支援between
•IN, NOT IN
•不支援EXIST ,NOT EXIST
ORDER BY與SORT BY的不同
•ORDER BY 全域性排序,只有一個Reduce任務
•SORT BY 只在本機做排序
Limit
•Limit 可以限制查詢的記錄數
SELECT * FROM t1 LIMIT 5
•實現Top k 查詢
•下面的查詢語句查詢銷售記錄最大的 5 個銷售代表。
SET mapred.reduce.tasks = 1
SELECT * FROM test SORT BY amount DESC LIMIT 5
•REGEX Column Specification
SELECT 語句可以使用正則表示式做列選擇,下面的語句查詢除了 ds 和 hr 之外的所有列:
SELECT `(ds|hr)?+.+` FROM test
例如
按先件查詢
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';
將查詢資料輸出至目錄:
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';
將查詢結果輸出至本地目錄:
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
選擇所有列到本地目錄:
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;
將一個表的統計結果插入另一個表中:
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;
將多表資料插入到同一表中:
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;
將檔案流直接插入檔案:
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)
3.2 基於Partition的查詢
•一般 SELECT 查詢會掃描整個表,使用 PARTITIONED BY 子句建表,查詢就可以利用分割槽剪枝(input pruning)的特性
•Hive 當前的實現是,只有分割槽斷言出現在離 FROM 子句最近的那個WHERE 子句中,才會啟用分割槽剪枝
3.3 Join
join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_condition table_reference: table_factor | join_table table_factor: tbl_name [alias] | table_subquery alias | ( table_references ) join_condition: