Hive學習小記-（4）帶複雜集合型別及指定多分隔符hive建表

阿新 • • 發佈：2020-12-26

帶集合型別建表

Hive上建立測試表test

create table test(
name string,
friends array<string>,
children map<string, int>,
address struct<street:string, city:string>
)
row format delimited fields terminated by ','
collection items terminated by '_'
map keys terminated by ':'
lines terminated by '\n 
';

-- 其中
row format delimited fields terminated by ','  -- 列分隔符欄位解釋：
collection items terminated by '_'   --MAP STRUCT 和 ARRAY 的分隔符(資料分割符號)
map keys terminated by ':' -- MAP中的key與value的分隔符
lines terminated by '\n'; -- 行分隔符

# 從本地上傳檔案
hive (default)> load data local inpath ‘/opt/module/datas/test.txt’into 
 table test

-- 三種集合型別的資料，以下分別是ARRAY，MAP，STRUCT的訪問方式
hive (default)> select friends[1],children['xiao song'],address.city from test
where name="songsong";

OK
_c0     _c1     city
lili    18      beijing
Time taken: 0.076 seconds, Fetched: 1 row(s)

多分隔符建表

create table test_toutiao(
     id string
    ,tag1 int
    ,tag2 string
    ,question string
    ,answer string
) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' 
WITH SERDEPROPERTIES ("field.delim"="_!_");

-- 這裡WITH SERDEPROPERTIES 裡面是不是少了一個encoding='UTF-8'或者'GBK'之類的引數？
-- field.delim也可以寫八進位制ascii碼，vim資料檔案在NORMAL格式下輸入ga可以檢視ascii碼，eg:"field.delim"="\124\028"

附：hive建表規則

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]
2．欄位解釋說明 
（1）CREATE TABLE 建立一個指定名字的表。如果相同名字的表已經存在，則丟擲異常；使用者可以用 IF NOT EXISTS 選項來忽略這個異常。
（2）EXTERNAL關鍵字可以讓使用者建立一個外部表，在建表的同時可以指定一個指向實際資料的路徑（LOCATION），在刪除表的時候，內部表的元資料和資料會被一起刪除，而外部表只刪除元資料，不刪除資料。
（3）COMMENT：為表和列添加註釋。
（4）PARTITIONED BY建立分割槽表
（5）CLUSTERED BY建立分桶表
（6）SORTED BY不常用，對桶中的一個或多個列另外排序
（7）ROW FORMAT 
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] 
   | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
使用者在建表的時候可以自定義SerDe或者使用自帶的SerDe。如果沒有指定ROW FORMAT 或者ROW FORMAT DELIMITED，將會使用自帶的SerDe。在建表的時候，使用者還需要為表指定列，使用者在指定表的列的同時也會指定自定義的SerDe，Hive通過SerDe確定表的具體的列的資料。
SerDe是Serialize/Deserilize的簡稱， hive使用Serde進行行物件的序列與反序列化。
（8）STORED AS指定儲存檔案型別
常用的儲存檔案型別：SEQUENCEFILE（二進位制序列檔案）、TEXTFILE（文字）、RCFILE（列式儲存格式檔案）
如果檔案資料是純文字，可以使用STORED AS TEXTFILE。如果資料需要壓縮，使用 STORED AS SEQUENCEFILE。
（9）LOCATION ：指定表在HDFS上的儲存位置。
（10）AS：後跟查詢語句，根據查詢結果建立表。
（11）LIKE允許使用者複製現有的表結構，但是不復制資料

TIPS：字元的ascii碼

字元常量可以是普通字元‘a’,'b'這樣，也可以是轉義字元\t,\n這種

這些字元也都可以用ASCII碼錶示，即用反斜符(\)開頭，後跟字元的ASCII碼，這種方法也稱為轉義序列表示法，具體方法有兩種形式：

一種是用字元的八進位制ASCII碼，表示為：\0dd.這裡，0dd是八進位制值（0可以省略）。

另一種使用字元的十六進位制ASCII碼值，表示為　\xhh或Xhh　這裡hh是兩位十六進位制值。

如：'A' ，'\101' 和 '\x41'都表示同一個字元常量。

Hive學習小記-（4）帶複雜集合型別及指定多分隔符hive建表

帶集合型別建表 Hive上建立測試表test create table test( name string, friends array<string>,

Hive學習小記-（5）表字段變動頻繁時用json格式

建表場景 create test_json( id int ,student string ) row format delimited fields terminated by \' \'; -- 假資料：

Hive學習小記-（6）collect_set與笛卡爾積使用

場景有兩張表，一張活動清單表actv_evt：記錄了所有的活動，包括活動id，活動名稱及活動相關配置資訊；一張客戶活動參與表cust_actv，記錄了客戶參與活動資訊。

Hive學習小記-（2）巨集命令

巨集命令巨集命令是在HQL中呼叫其他函式和操作符來定義函式的功能。比較適合做分析時為一些臨時需要用到很多次的繁瑣表示式封裝一下，取個簡短點的別名以便重複呼叫例子

Hive學習小記-（10）hive增量下發的變化流水錶如何做update操作

場景有一張明細事務級別的流水錶，主鍵是事件流水號srl_id, 該表每天採集當天新增及變化的事件下發，上游下發檔案分割槽日期prt_dt.

Hive學習小記-（12）橫表與縱表的互相轉換***

需求說明：這是一個橫錶轉縱表與縱錶轉橫表的故事，有點類似行列轉換行轉列：一個欄位的多行資料合進一個列,通常可用collect_set+concat_ws；列轉行：一個欄位的一列資料拆到多個行，通常用explode

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法型別獲取方式自帶的小資料集 sklearn.datasets.load_ 線上下載的資料集 sklearn.datasets.fetch_

shell學習筆記（4）

第一個shell指令碼 #!/bin/bash echo \"Hello World !\" #!是一個約定的標記，它告訴系統這個指令碼需要什麼直譯器來執行，即使用哪一種 Shell。

Tableau學習筆記——（4）標靶圖、甘特圖、瀑布圖

上一小節連結. 這裡寫自定義目錄標題 1、Tableau製作標靶圖1.1 二月份電量銷售額完成情況

深度學習——學習筆記（4）神經網路基礎迴歸

# 載入波士頓房價資料 from keras.datasets import boston_housing (train_data,train_targets),(test_data,test_targets) = boston_housing.load_data()

Spark學習小記-（1）DataFrame的schema

Schema是什麼 DataFrame中的資料結構資訊，即為schema。DataFrame中提供了詳細的資料結構資訊，從而使得SparkSQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。

python學習筆記（4）xlsxwriter模組運用，建立105萬行excel

技術標籤：python import xlsxwriter import random import gc from datetime import datetime C:\\Users\\測試資料_105萬.xlsx"

大三寒假學習進度（4）

tensorflow學習鳶尾花分類步驟 1 · 準備資料，包括資料集讀入、資料集亂序，把訓練集和測試集中的資料配成輸入特徵和標籤對，生成 train 和 test 即永不相見的訓練集和測試集；

Python學習筆記（4）

Python 解析 XML檔案 python 中使用 xml.dom.minidom模組來解析XML檔案， xml.dom.minidom.parse() 用於開啟一個XML檔案，並將這個檔案物件轉為xmldom變數。

寒假學習——ES6（4）

寒假學習——ES6（4） class <script> class Paopao{ constructor(name,age){ this.name=name; this.age=age;

HBase 原始碼學習 ---- Flush（4）

技術標籤：HBase原始碼理解hbase 根據前三篇文章，HBase flush主要分三個階段，snapshot，flush，commit，這篇深入HBase MemStore，梳理snapshot的流程。

Python學習筆記（4）-函式

函式函式的簡介函式也是一個物件，函式可以用來儲存一些可執行的程式碼，並且可以在需要時，對這些語句進行多次的呼叫，函式中儲存的程式碼不會立即執行，需要呼叫函式程式碼才會執行

深入學習Netty（4）——Netty程式設計入門

前言　　從學習過BIO、NIO、AIO程式設計之後，就能很清楚Netty程式設計的優勢，為什麼選擇Netty，而不是傳統的NIO程式設計。本片博文是Netty的一個入門級別的教程，同時結合時序圖與原始碼分析，以便對Netty程式設

組合語言學習筆記（4）——彙編基本指令集

注：為講授方便，使用下列符號： N 代表立即數 N8、N16、N32代表8、16、 32位立即數

OpenXml SDK學習筆記（4）：設定檔案級別的樣式

觀察上一段日記最後的程式碼：這裡的樣式基本可以理解為行內CSS。那麼既然有行內的樣式，就肯定有外部的樣式。那這部分就對應筆記1裡說的style.xml檔案。這個檔案對應的是Document.MainDocumentPart.StyleDefi

Hive學習小記-（4）帶複雜集合型別及指定多分隔符hive建表

帶集合型別建表

多分隔符建表

附：hive建表規則

TIPS：字元的ascii碼

相關推薦