hive建表的標準格式及其建表屬性詳解2

阿新 • • 發佈：2019-01-01

建表方式一：demo級建表

hive (fdm_sor)> create table my_tmp (id int,ids string );

檢視建表語句（工作中經常使用的語句）

hive (fdm_sor)> show create tablemy_tmp;

CREATE TABLE `my_tmp`(
 `id` int,
 `ids` string)
ROW FORMAT SERDE
 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STOREDAS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
 'hdfs://Hadoop2/user/finance/hive/warehouse/fdm_sor.db/my_tmp'
TBLPROPERTIES (
 'transient_lastDdlTime'='1522135161')

可以看出實際上在hive底層建表默認了很多屬性(比如反引號的使用),使用者可以選擇自定義，也可以選擇預設。當然你如果把所有的預設屬性配置寫到建表語句裡，也不會錯，只是等價於上面的DEMO版。

1.row format行列分割符，預設是行是\n分割，欄位分隔符為ascii碼的控制符\001（即Ctrl+A）

如上面表，my_tmp，執行插入資料：
   insert into  table my_tmp  select 102,"jack" from aaaa limit1
然後資料插入後通過hadoop命令將表中資料檔案下載到本地
   hadoop  fs -get /user/hive/warehouse/fdm_sor.db/tmp_ids/*  ./
最後開啟的結果如下：
   102jack

如下，windows下檢視：這就是hive預設欄位分隔符\001的顯示情況，可讀性差。

2.預設儲存格式TextFILE儲存格式，hive常用的有三種儲存格式，具體參考我的其他部落格篇，TEXTFILE儲存格式內容可讀性好，沒有加密。

3.預設內部表（管理表）都是預設hive資料倉庫路徑下庫名+表明的儲存路徑。

4.TBLPROPERTIES，使用者可以在此新增一些關於表的描述，系統也會自動生成一些資訊，如表建立時間

建表方式二：定義分隔符和分割槽

自定義分割槽和自定義行間欄位分隔符（若要自定義行分隔符，要重寫INPUTFORMAT和outputformat類。）

hive (fdm_sor)> create table my_merge（
              > ids string ,
              > curtermspastdue string)
              > PARTITIONED BY (
              >   `statis_date` string) 
              > ROW FORMAT DELIMITED FIELDSTERMINATED BY ',' ;

hive (fdm_sor)> show create tablemy_merge;

CREATE TABLE `my_merge`(
 `ids` string,
 `curtermspastdue` string)
PARTITIONED BY (
 `statis_date` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY','
STORED AS INPUTFORMAT
 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
 'hdfs://SuningHadoop2/user/finance/hive/warehouse/fdm_sor.db/my_merge'
TBLPROPERTIES (
 'transient_lastDdlTime'='1522135917')

注意：分割槽一定要寫在row format之前，否則報錯。這裡自定義的列的分割符是‘，’，無法直接定義行的分割符，如果要定義行要重寫INPUTFORMAT和outputformat類。這裡使用的資料儲存格式還是預設的TEXTFILE。注意下系統show create table後建表語句的變化。

建表方式三：自定義檔案儲存格式

hive (fdm_sor)> CREATE  TABLE `my_merge1`(
              >   `ids` string,
              >   `curtermspastdue` string)
              > PARTITIONED BY (
              >   `statis_date` string)
              > ROW FORMAT DELIMITED
              >   FIELDS TERMINATED BY ','
              > STORED AS RCFILE
              > TBLPROPERTIES (
              >   'transient_lastDdlTime'='1522135917',
              >   'author'='9527') ;

注意：STORED AS RCFILE等價於下面這種寫法，底層會將STORED AS RCFILE轉換成如下格式。

 STORED AS INPUTFORMAT
 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
 OUTPUTFORMAT
 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'

hive (fdm_sor)> SHOW CREATE TABLEMY_MERGE1;
CREATE TABLE `MY_MERGE1`(
 `ids` string,
 `curtermspastdue` string)
PARTITIONED BY (
 `statis_date` string)
ROW FORMAT DELIMITED
 FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
OUTPUTFORMAT
 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'
LOCATION
 'hdfs://SuningHadoop2/user/finance/hive/warehouse/fdm_sor.db/my_merge1'
TBLPROPERTIES (
 'author'='9527',
 'transient_lastDdlTime'='1522136172')

像這種stored as rcfile儲存的檔案，其實

建表方式四:自定義檔案儲存位置

hive (fdm_sor)> CREATE  TABLE `my_merge2`(
              >   `ids` string,
              >   `curtermspastdue` string)
              > PARTITIONED BY (
              >   `statis_date` string)
              > ROW FORMAT DELIMITED
              >   FIELDS TERMINATED BY ','
              > STORED AS RCFILE
              >LOCATION  'hdfs://SuningHadoop2/user/finance/hive/warehouse/fdm_sor.db/1111111111111'

注意，一般外部表建立時要定義儲存位置location,但是管理表一般都會預設有儲存位置，但是預設雖有，使用者也可以自定義儲存位置，只是儲存位置沒有外部表定義的那麼隨意。

建表方式5：使用自定義儲存格式建表

add jar /home/bigdata/software/hive/ext-lib/suning-hive-inputformat.jar;
CREATE TABLE fdm_ssa.ssa_lbsadmprd1_T_ORDER
(ID BIGINT commet'id，唯一標誌',
ORDER_NO STRING comment'序號',
PRODUCT_ID BIGINT,
PERIOD_ID BIGINT,
CUST_SERVICE_REMARK STRING,
ACTIVE STRING,
CREATED_TIME STRING,
UPDATED_TIME STRING
)partitioned by( statis_date string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STORED AS
INPUTFORMAT
'com.suning.hive.input.CommonTextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

日常開發實際建表格式：

1.表要有註釋，沒有註釋的表後續無法維護

2.表要有固定的命名規則，符合公司的命名規則

3.資料儲存切分格式要符合公司要求，比如這裡資料倉庫的複製層使用的就是自定義儲存個。SOR層儲存格式則是RCFILE.

下面才是符合公司規範的建表格式：

1.資料倉庫複製層SSA層建表格式；
add jar /home/bigdata/software/hive/ext-lib/suning-hive-inputformat.jar;
create table fdm_ssa.ssa_cpl_tb_repay_detail_d
(
 ID              varchar(50)      comment 'ID'        
,LOAN_NO         varchar(50)      comment '借據號'
,TOTAL_AMOUNT    decimal(16,4)    comment '總金額'
,PRINCIPAL       decimal(16,4)    comment '本金'
,INTEREST        decimal(16,4)    comment '利息'
,AMERCE          decimal(16,4)    comment '罰息'
,REPAY_TIME      varchar(30)      comment '還款時間'
,STATUS          VARCHAR(10)      comment '{狀態{100:申請中,200:還款成功,500:還款失敗,505:失效}}'
)comment '還款明細表'
partitioned by (stat_date varchar(8) COMMENT '時間分割槽欄位{"FORMAT":"YYYYMMDD"}')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 
  'com.suning.hive.input.CommonTextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

2.資料倉庫庫第二層SOR,儲存格式為RCFILE
CREATE TABLE IF NOT EXISTS FDM_SOR.SOR_EVT_ICSS_T_INS_PREMIUM_PAY(
 ID                               bigint             COMMENT 'ID'
,CHANNEL_PAY_NO                   VARCHAR(32)        COMMENT '渠道支付號'
,CHANNEL_ORDER_NO                 VARCHAR(32)        COMMENT '渠道訂單號'
,POLICY_NO                        VARCHAR(32)        COMMENT '保單號'
,ETL_TIME                         varchar(19)        COMMENT 'ETL時間{"FORMAT":"yyyy-MM-dd HH:mm:ss"}'
,ETL_UPDATE_TIME                  varchar(19)        COMMENT 'ETL時間{"FORMAT":"yyyy-MM-dd HH:mm:ss"}'
)comment '保費支付表'
STORED AS RCFILE;

hive建表的標準格式及其建表屬性詳解2

建表方式一：demo級建表

建表方式二：定義分隔符和分割槽

建表方式三：自定義檔案儲存格式

建表方式四:自定義檔案儲存位置

建表方式5：使用自定義儲存格式建表

日常開發實際建表格式：

hive建表的標準格式及其建表屬性詳解1

hive建表的標準格式及其建表屬性詳解2

Mvc 提交表單的4種方法全程詳解

Spring batch學習持久化表結構詳解(2)

Java設計模式之五大創建型模式（附實例和詳解）

順序表的建立和初始化過程詳解（C語言實現）

HTML5-從0開始學習之表單屬性詳解

鄰接表有向圖(三)之 Java詳解

鄰接表無向圖(三)之 Java詳解

鄰接表有向圖(二)之 C++詳解

鄰接表無向圖(二)之 C++詳解

微信小程式中form 表單提交和取值例項詳解

thinkPHP3.1.2多表事務，批量插入資料，詳解and例項

在jquery中ajax提交表單的post與get方式詳解

Django基礎(11): 表單集合Formset的高階用法詳解

iOS應用內建付費 In-App Purchase 詳細介紹(IAP詳解)

TCP三次握手建連以及四次揮手斷連詳解

SQL Server日期時間格式轉換字符串詳解

memcache及其telnet命令使用詳解

Java並發編程（5）- J.U.C之AQS及其相關組件詳解

hive建表的標準格式及其建表屬性詳解2

建表方式一：demo級建表

建表方式二：定義分隔符和分割槽

建表方式三 ：自定義檔案儲存格式

建表方式四:自定義檔案儲存位置

建表方式5：使用自定義儲存格式建表

日常開發實際建表格式：

相關推薦

建表方式三：自定義檔案儲存格式