0010-Hive多分隔符支援示例

阿新 • • 發佈：2018-11-19

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。

1.問題描述

如何將多個字元作為欄位分割符的資料檔案載入到Hive表中，事例資料如下：

欄位分隔符為“@#$”

[email protected]#[email protected]#$test2value
[email protected]#[email protected]#$test2value
[email protected]#[email protected]#$test4value

如何將上述事例資料載入到Hive表(multi_delimiter_test)中，表結構如下：

欄位名	欄位型別
s1	String
s2	String
s3	String

2.Hive多分隔符支援

Hive在0.14及以後版本支援欄位的多分隔符，參考 https://cwiki.apache.org/confluence/display/Hive/MultiDelimitSerDe

3.實現方式

測試環境說明

測試環境為CDH5.11.1Hive版本為1.1.0作業系統為RedHat6.5
操作步驟

1.準備多分隔符檔案並裝載到HDFS對應目錄

[[email protected]  ~]$ cat multi_delimiter_test.dat

[email protected]#[email protected]#$test2value

[email protected]#[email protected]#$test2value

[email protected]#[email protected]#$test4value  

[[email protected]  ~]$ hadoop dfs -put multi_delimiter_test.dat /fayson/multi_delimiter_test

[ 
[email protected]  ~]$ hadoop dfs -ls /fayson/multi_delimiter_test

DEPRECATED: Use of this  script to execute hdfs command is deprecated.

Instead use the hdfs  command for it.

Found 1 items

-rw-r--r--   3 user_r supergroup         93 2017-08-23 03:24  /fayson/multi_delimiter_test/multi_delimiter_test.dat

[[email protected]  ~]$

2.基於準備好的多分隔符檔案建表

create  external table multi_delimiter_test(

s1 string,

s2 string,

s3 string)

ROW FORMAT  SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH  SERDEPROPERTIES ("field.delim"="@#$")

stored as  textfile location '/fayson/multi_delimiter_test';

0010-Hive多分隔符支援示例

3.測試

2: jdbc:hive2://localhost:10000/default>  select * from multi_delimiter_test;
+--------------------------+--------------------------+--------------------------+--+
|  multi_delimiter_test.s1  |  multi_delimiter_test.s2  |  multi_delimiter_test.s3  |
+--------------------------+--------------------------+--------------------------+--+
| test1                    | test1name                | test2value               |
| test2                    | test2name                | test2value               |
| test3                    | test3name                | test4value               |
+--------------------------+--------------------------+--------------------------+--+

0010-Hive多分隔符支援示例

2:  jdbc:hive2://localhost:10000/default> select count(*) from  multi_delimiter_test;
INFO  : Ended Job = job_1503469952834_0006
INFO  : MapReduce Jobs Launched:
INFO  : Stage-Stage-1: Map: 1  Reduce: 1    Cumulative CPU: 3.25 sec   HDFS  Read: 6755 HDFS Write: 2 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 3 seconds  250 msec
INFO  : Completed executing command(queryId=hive_20170823041818_ce58aae2-e6db-4eed-b6af-652235a6e66a);  Time taken: 33.286 seconds
INFO  : OK
+------+--+
| _c0  |
+------+--+
| 3    |
+------+--+
1 row selected (33.679  seconds)
2:  jdbc:hive2://localhost:10000/def

0010-Hive多分隔符支援示例

4.常見問題

1.執行count查詢時報錯

異常日誌

通過beeline執行count查詢時報錯

2:  jdbc:hive2://localhost:10000/default> select count(*) from  multi_delimiter_test;

INFO  : Compiling  command(queryId=hive_20170823035959_f1b11a9b-757d-4d9b-b8a7-6d4ab1c00a97):  select count(*) from multi_delimiter_test

INFO  : Semantic Analysis Completed

INFO  : Returning Hive schema:  Schema(fieldSchemas:[FieldSchema(name:_c0, type:bigint, comment:null)],  properties:null)

INFO  : Completed compiling  command(queryId=hive_20170823035959_f1b11a9b-757d-4d9b-b8a7-6d4ab1c00a97);  Time taken: 0.291 seconds

INFO  : Executing  command(queryId=hive_20170823035959_f1b11a9b-757d-4d9b-b8a7-6d4ab1c00a97):  select count(*) from multi_delimiter_test

INFO  : Query ID =  hive_20170823035959_f1b11a9b-757d-4d9b-b8a7-6d4ab1c00a97

INFO  : Total jobs = 1

INFO  : Launching Job 1 out of 1

INFO  : Starting task [Stage-1:MAPRED] in serial  mode

INFO  : Number of reduce tasks determined at  compile time: 1

INFO  : In order to change the average load for a  reducer (in bytes):

INFO  :    set hive.exec.reducers.bytes.per.reducer=<number>

INFO  : In order to limit the maximum number of  reducers:

INFO  :    set hive.exec.reducers.max=<number>

INFO  : In order to set a constant number of  reducers:

INFO  :    set mapreduce.job.reduces=<number>

INFO  : number of splits:1

INFO  : Submitting tokens for job:  job_1503469952834_0002

INFO  : Kind: HDFS_DELEGATION_TOKEN, Service:  ha-hdfs:nameservice1, Ident: (token for hive: HDFS_DELEGATION_TOKEN  owner=hive/[email protected],  renewer=yarn, realUser=, issueDate=1503475160778, maxDate=1504079960778,  sequenceNumber=27, masterKeyId=9)

INFO  : The url to track the job:  http://ip-172-31-9-186.ap-southeast-1.compute.internal:8088/proxy/application_1503469952834_0002/

INFO  : Starting Job = job_1503469952834_0002,  Tracking URL =  http://ip-172-31-9-186.ap-southeast-1.compute.internal:8088/proxy/application_1503469952834_0002/

INFO  : Kill Command =  /opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p0.5/lib/hadoop/bin/hadoop  job  -kill job_1503469952834_0002

INFO  : Hadoop job information for Stage-1:  number of mappers: 1; number of reducers: 1

INFO  : 2017-08-23 03:59:32,039 Stage-1 map =  0%,  reduce = 0%

INFO  : 2017-08-23 04:00:08,106 Stage-1 map =  100%,  reduce = 100%

ERROR : Ended Job =  job_1503469952834_0002 with errors

ERROR : FAILED: Execution  Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

INFO  : MapReduce Jobs Launched:

INFO  : Stage-Stage-1: Map: 1  Reduce: 1    HDFS Read: 0 HDFS Write: 0 FAIL

INFO  : Total MapReduce CPU Time Spent: 0 msec

INFO  : Completed executing  command(queryId=hive_20170823035959_f1b11a9b-757d-4d9b-b8a7-6d4ab1c00a97);  Time taken: 48.737 seconds

Error: Error while  processing statement: FAILED: Execution Error, return code 2 from  org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

使用Hive的shell操作報錯如下

Error:  java.lang.RuntimeException: Error in configuring object
        at  org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:75)
        at  org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
        at  org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:449)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
        at  org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
        at  java.security.AccessController.doPrivileged(Native Method)
        at  javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920)
        at  org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by:  java.lang.reflect.InvocationTargetException
        at  sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at  sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at  sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at  java.lang.reflect.Method.invoke(Method.java:606)
        at  org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:106)
        ... 9 more
Caused by:  java.lang.RuntimeException: Error in configuring object
        at  org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)
        at  org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:75)
        at  org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
        at  org.apache.hadoop.mapred.MapRunner.configure(MapRunner.java:38)
        ... 14 more
Caused by:  java.lang.reflect.InvocationTargetException
        at  sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at  sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at  sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at  java.lang.reflect.Method.invoke(Method.java:606)
        at  org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:106)
        ... 17 more
Caused by:  java.lang.RuntimeException: Map operator initialization failed
        at  org.apache.hadoop.hive.ql.exec.mr.ExecMapper.configure(ExecMapper.java:147)
        ... 22 more
Caused by:  org.apache.hadoop.hive.ql.metadata.HiveException:  java.lang.ClassNotFoundException: Class  org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe not found
        at  org.apache.hadoop.hive.ql.exec.MapOperator.getConvertedOI(MapOperator.java:323)
        at  org.apache.hadoop.hive.ql.exec.MapOperator.setChildren(MapOperator.java:333)
        at  org.apache.hadoop.hive.ql.exec.mr.ExecMapper.configure(ExecMapper.java:116)
        ... 22 more
Caused by:  java.lang.ClassNotFoundException: Class  org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe not found
        at  org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2105)
        at  org.apache.hadoop.hive.ql.plan.PartitionDesc.getDeserializer(PartitionDesc.java:140)
        at  org.apache.hadoop.hive.ql.exec.MapOperator.getConvertedOI(MapOperator.java:297)
        ... 24 more
FAILED: Execution Error,  return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
MapReduce Jobs Launched:
Stage-Stage-1: Map:  1  Reduce: 1   HDFS Read: 0 HDFS Write: 0 FAIL
Total MapReduce CPU Time  Spent: 0 ms

問題原因分析

org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe類是hive-contrib.jar包裡。

在執行非聚合類操作查詢時，sql能正常執行，在進行聚合類函式操作時報錯，說明在執行MapReduce任務時缺少jar依賴包；MapReduce屬於yarn作業，所以yarn執行環境缺少hive-contrib.jar的依賴包。

解決方法

在CDH叢集的所有節點一下操作，將hive-contrib-1.1.0-cdh5.10.2.jar包拷貝到yarn的lib目錄下

sudo scp -r  /opt/cloudera/parcels/CDH/lib/hive/lib/hive-contrib-1.1.0-cdh5.10.2.jar  /opt/cloudera/parcels/CDH/lib/hadoop-yarn/lib/

重新執行count語句，執行成功

0010-Hive多分隔符支援示例

醉酒鞭名馬，少年多浮誇！嶺南浣溪沙，嘔吐酒肆下！摯友不肯放，資料玩的花！
溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。

0010-Hive多分隔符支援示例

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.問題描述如何將多個字元作為欄位分割符的資料檔案載入到Hive表中，事例資料如下：欄位分隔符為“@#$” [email protected]#[email protected]#$test2value

hadoop+hive多使用者訪問支援

在我們hadoop+hive的使用場景中，一般都是將hive部署在hadoop使用者下。而如果多人需要訪問的時候，只能通過hive啟動server的方式來處理。而不能通過客戶端的方式來處理。如果將hive程式部署到非hadoop使用者下，會出現如下問題： /home/s

hive如何處理多分隔符資料

問題描述：大資料維穩需求中，客戶提供的測試資料為多個字元做分隔符('|#'),在pig中會直接報錯，hive中只認第一個分隔符。由於資料量比較大（160G），在文字中替換成單個字元分隔符已不現實，以下提供兩個方案解決這一問題。樣例資料 110|#警

jquery Mobile入門—多頁面切換示例學習

str 代碼 down asc 進行 .net footer sheet cti 1、在JQuery Mobile中，多個頁面的切換是通過<a>元素、並將<href>屬性設置為#+對應的id號的方式進行的。 2、多頁面切換示例代碼：復制代碼代碼

初入多線程示例展示--Runner

println this 利用 color rgs pre 使用 () div 利用多線程演示多人賽跑過程： RunnerThread.java package thread; /** * 所有的人來參加賽跑比賽，使用線程那麽寫100個線程？ *

Jmeter正則表達式提取多個值示例

tps == 就是 blog 字符常用 () 針對如圖所示首先了解一下常用正則表達式的語法 \d 數字 \w 數字或者字母 . 可以匹配任意字符星號* 表示任意個字符 +

mybatis遞歸，一對多代碼示例

maven 簡單學習 tab ret 通過 utf8 spring display 今天需要做一個功能，根據專業，有不同的章節，章節下面有對應的習題，由於只有這麽兩級，可以不用使用遞歸，直接查詢父集，之後foreach查詢子集放入對應的list集合。雖然實現了，感

Python面向對象的三大特點：封裝，繼承和多態（示例）

方法名類的方法 eth ani The class 無法 trac eight 繼承單繼承： #類定義 class people: #定義基本屬性 name = ‘‘ age = 0 #定義私有屬性,私有屬性在類外部無法

Python中的多程序小示例

#!/usr/bin/python # -*- coding:utf-8 -*- import requests import json import time from multiprocessing import Pool def func(name): print('

hive多linux使用者和許可權管理

linux上增加使用者 useradd –d /home/hdfs/test -m test passwd test 設定密碼切換到超級使用者 sudo su - hdfs 在hive 客戶端上建立角色 CREATE ROLE role_test; 對建立的角色賦權列如查詢許可權 gran

[UWP]針對UWP程式多語言支援的總結，含RTL

原文: [UWP]針對UWP程式多語言支援的總結，含RTL UWP 對 Globalization and localization 的支援非常好，可以非常容易地實現應用程式本地化。所謂本地化，表現最為直觀的就是UI上文字和佈局方式了，針對文字，提供不同的語言資原始檔即可，

SpringBoot學習_Profile多環境支援

文章目錄多profile檔案形式例子啟用Profiles yml支援多文件塊方式多文件塊(其實就是多Profile) 其他啟用方式 Profil

比特幣現金BCH將於11月15日硬分叉，幣安等多交易所支援BCH升級

幣安Binance是全球最大的加密貨幣交易所之一，已宣佈將於11月15日全面支援即將推出的比特幣現金BCH硬分叉。更多公司宣佈支援比特幣現金硬分叉政策全球最大的硬體錢包品牌之一的Ledger宣佈，在他們宣佈即將推出比特幣現金BCH硬分叉政策之後幾天，加密貨幣交易巨頭幣安Bina

簡單多執行緒示例

#include<Windows.h> #include<iostream> using namespace std; DWORD WINAPI Fun1Proc(LPVOID lpParameter);//定義執行緒入口函式（規定格式） DWORD WINAP

用比特幣結算工資會讓更多商家支援BTC支付嗎？

加拿大比特幣支付公司Bylls執行長Francis Pouliot最近釋出推文，討論瞭如果更多的人以比特幣的形式領取薪資是否會增加零售商對比特幣支付的支援。比特幣是貨幣嗎？這一問題可以歸結為比特幣是否被視為一種貨幣。2017年，比特幣的高波動性讓包括遊戲數字平臺Steam在內的一些

mybatis3.0-[topic10-14] -全域性配置檔案_plugins外掛簡介/ typeHandlers_型別處理器簡介 /enviroments_執行環境 /多資料庫支援/mappers_sql對映註冊

mybatis3.0-全域性配置檔案_ 下面為中文官網解釋 /plugins外掛簡介目前瞭解即可外掛（plugins） MyBatis 允許你在已對映語句執行過程中的某一點進行攔截呼叫。預設情況下，MyBatis 允許使用外掛來攔截的方法呼

本地搭建hadoop叢集-hive多節點訪問(hive2.3.3)

一、思路 1.安裝hadoop叢集。我這裡使用的是自己編譯的2.7.6 2.元資料使用mysql作為技術支撐 3.配置hive引數分發至各個節點 4.hive服務端啟動 5.各個節點hive客戶端訪問二、mysql的安裝 rpm -q mysq

vue用i18n實現多語言支援（國際化）

vue-i18n是用於多語言適配的vue外掛，主要用於前端專案的國際化應用。個簡單的例子： <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title&

Hive多欄位分組取Top N且保留某列不相同記錄

　　一、問題背景　　1.先吐槽一下中國聯通自己的大資料開放能力平臺提供的計算叢集，Hive用的1.1，Spark用的1.5，Kafka0.8，我的天吶，原始的讓人抓狂，好多已經寫好的模型都要重寫...... 　　2.資料格式　　第一列是device_number，第

使用Springboot @TypeDiscriminator註解實現多型物件的查詢，jackson @JsonTypeInfo註解實現controller多型支援

背景：最近專案中涉及到要實現繼承物件的獲取，由於習慣用註解實現mybatis物件對映，所以也想用@TypeDiscriminator實現。但是在百度中卻搜尋不到@TypeDiscriminator的應用例項，幸好能上國外網，Google之。下面以一個最簡單的例子來講@TypeDiscrimin

0010-Hive多分隔符支援示例

相關推薦