Avro技術應用_3. 利用 Hive 表處理 Avro 資料

阿新 • • 發佈：2019-02-12

本文參考於：http://www.iteblog.com/archives/1007 & <Hadoop in Practice 2>

Avro是一個數據序列化系統，設計用於支援大批量資料交換的應用。它的主要特點有：支援二進位制序列化方式，可以便捷，快速地處理大量資料；動態語言友好，Avro提供的機制使動態語言可以方便地處理Avro資料。
Hive 0.9.1 版本新繫結Avro SerDe（序列化器/反序列化器的簡稱）,它允許 Hive 從表中讀取資料和寫回表.

Hive Versions	Avro Version
Hive 0.9.1	Avro 1.5.3
Hive 0.10, 0.11, and 0.12	Avro 1.7.1
Hive 0.13 and 0.14	Avro 1.7.5

如果需要在Hive中使用Avro，需要在$HIVE_HOME/lib目錄下放入以下四個工具包：avro-1.7.1.jar、avro-tools-1.7.4.jar、 jackson-core-asl-1.8.8.jar、jackson-mapper-asl-1.8.8.jar。當然，你也可以把這幾個包存在別的路徑下面，但是你需要把這四個包放在CLASSPATH中。
你需要將Avro的schema複製到HDFS上, 並建立一個目錄包含一些 Avro 股票記錄的示例:

$ hadoop fs -put $HIP_HOME/schema schema
$ hadoop fs -mkdir stock_hive

$ hip hip.ch3.avro.AvroStockFileWrite \
    --input test-data/stocks.txt \
    --output stock_hive/stocks.avro

為了解析Avro格式的資料，我們可以在Hive建表的時候用下面語句：
需要注意的是，以下建立表的格式是 Hive 通用的格式，但是在 Hive 0.14 及以後的版本里，在DDL語句中可以直接使用"STORED AS AVRO 2.1 在定義中指定 schema
hive> CREATEEXTERNAL TABLEtweets > COMMENT "A table backed by Avro data with the > Avro schema embedded in the CREATE TABLE statement" > ROW FORMAT SERDE

'org.apache.hadoop.hive.serde2.avro.AvroSerDe' > STORED AS > INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' > LOCATION '/user/wyp/examples/input/' > TBLPROPERTIES ( > 'avro.schema.literal'='{ > "type": "record", > "name": "Tweet", > "namespace": "com.miguno.avro", > "fields": [ > { "name":"username", "type":"string"}, > { "name":"tweet", "type":"string"}, > { "name":"timestamp", "type":"long"} > ] > }' > );

Time taken: 0.076 seconds

hive> describe tweets;

OK
username            	string              	from deserializer   
tweet               	string              	from deserializer   
timestamp           	bigint              	from deserializer

2.2 呼叫一個 shema 檔案的 URL

將avro.schema.literal中的 schame 定義存放在一個檔案中，比如：twitter.avsc

{ "type": "record", "name": "Tweet", "namespace": "com.miguno.avro", "fields": [ { "name": "username", "type": "string" }, { "name": "tweet", "type": "string" }, { "name": "timestamp", "type": "long" } ] } -- Create 外部表 tweets CREATE EXTERNAL TABLE tweets COMMENT "A table backed by Avro data with the Avro schema stored in HDFS" ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' LOCATION '/user/wyp/examples/input/' TBLPROPERTIES ( ); -- Create 外部表 stocks hive> CREATE EXTERNAL TABLE stocks COMMENT "An Avro stocks table" ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' LOCATION '/user/YOUR-HDFS-USERNAME/stock_hive/' TBLPROPERTIES ( );

hive> describe tweets;

OK
username            	string              	from deserializer   
tweet               	string              	from deserializer   
timestamp           	bigint              	from deserializer

Avro技術應用_3. 利用 Hive 表處理 Avro 資料

Avro技術應用_3. 利用 Hive 表處理 Avro 資料

線性表（二）單鏈表應用——可利用空間表

spark讀hdfs(hive表)處理資料結果落hive表Demo

Avro技術應用_2. 使用 Avro 來儲存大量小的二進位制檔案

在cm安裝的大資料管理平臺中整合impala之後讀取hive表中的資料的設定（hue當中執行impala的資料查詢）

一起學Hive——總結複製Hive表結構和資料的方法

利用feather快速處理大資料

springMVC資料傳遞案例------利用form表單提交資料

從Hive表中進行資料抽樣-Sampling

利用hive對微博資料統計分析案例

大資料||匯出Hive表中的資料

hive部分：hive表中載入資料的方式（四種）

yii筆記—利用頁面表單實現資料的新增

C# 應用 - 多執行緒 7) 處理同步資料之 Synchronized code regions (同步程式碼區域)： Monitor 和 lock

Java | 技術應用 | 利用Jsoup處理頁面

05： iSCSI技術應用資料庫服務基礎管理表資料總結和答疑

Python利用pandas處理Excel資料的應用

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

【JAVA秒會技術之Java8新特性】利用流快速處理集合的常見操作

Hive應用：外部分割槽表

Avro技術應用_3. 利用 Hive 表處理 Avro 資料

相關推薦