hadoop深入研究:(十六)——Avro序列化與反序列化

阿新 • • 發佈：2019-02-05

使用avro在很多情況下是對原有系統的改造，框架格式都已經定義好了，我們只能直接用avro對原有資料進行整合。（如果是新建系統，最好還是用avro的datafile，下一章講datafile）

準備工作

將一下schema儲存成檔案StringPair.avsc,放在src/test/resources目錄下

{
    "type":"record",
    "name":"StringPair",
    "doc":"A pair of strings",
    "fields":[
        {"name":"left","type":"string"},
        {"name":"right","type":"string"}
    ]
}

引入最新版本的avro時要主要，最新的avro包為1.7.4，依賴org.codehaus.jackson:jackson-core-asl:1.8.8包，但是maven庫中已經沒有該版本所以要換成其他版本

    <dependency>
                <groupId>org.codehaus.jackson</groupId>
                <artifactId>jackson-core-asl</artifactId>
                <version>1.9.9</version>
            </dependency>

如果你用的時1.0.4版本的hadoop（或者其他版本），依賴於jackson-mapper-asl，如果與jackson-core-asl版本不一致就會產生找不到方法等異常你需要入引入相同版本

            <dependency>
                <groupId>org.codehaus.jackson</groupId>
                <artifactId>jackson-mapper-asl</artifactId>
                <version>1.9.9</version>
            </dependency>

generic方式

這一節我們用程式碼講解

package com.sweetop.styhadoop;

import junit.framework.Assert;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericDatumReader;
import org.apache.avro.generic.GenericDatumWriter;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.io.*;
import org.junit.Test;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;

/**
 * Created with IntelliJ IDEA.
 * User: lastsweetop
 * Date: 13-8-5
 * Time: 下午7:59
 * To change this template use File | Settings | File Templates.
 */
public class TestGenericMapping {
    @Test
    public void test() throws IOException {
        //將schema從StringPair.avsc檔案中載入
        Schema.Parser parser = new Schema.Parser();
        Schema schema = parser.parse(getClass().getResourceAsStream("/StringPair.avsc"));

        //根據schema建立一個record示例
        GenericRecord datum = new GenericData.Record(schema);
        datum.put("left", "L");
        datum.put("right", "R");


        ByteArrayOutputStream out = new ByteArrayOutputStream();
        //DatumWriter可以將GenericRecord變成edncoder可以理解的型別
        DatumWriter<GenericRecord> writer = new GenericDatumWriter<GenericRecord>(schema);
        //encoder可以將資料寫入流中，binaryEncoder第二個引數是重用的encoder，這裡不重用，所用傳空
        Encoder encoder = EncoderFactory.get().binaryEncoder(out, null);
        writer.write(datum,encoder);
        encoder.flush();
        out.close();

        DatumReader<GenericRecord> reader=new GenericDatumReader<GenericRecord>(schema);
        Decoder decoder=DecoderFactory.get().binaryDecoder(out.toByteArray(),null);
        GenericRecord result=reader.read(null,decoder);
        Assert.assertEquals("L",result.get("left").toString());
        Assert.assertEquals("R",result.get("right").toString());
    }
}

result.get返回的是utf-8格式，需要呼叫toString方法，才能和字串一致。

specific方式

首先使用avro-maven-plugin生成程式碼，pom的配置

  <plugin>
                    <groupId>org.apache.avro</groupId>
                    <artifactId>avro-maven-plugin</artifactId>
                    <version>1.7.0</version>
                    <executions>
                        <execution>
                            <id>schemas</id>
                            <phase>generate-sources</phase>
                            <goals>
                                <goal>schema</goal>
                            </goals>
                            <configuration>
                                <includes>
                                    <include>StringPair.avsc</include>
                                </includes>
                                <sourceDirectory>src/test/resources</sourceDirectory>
                                <outputDirectory>${project.build.directory}/generated-sources/java</outputDirectory>
                            </configuration>
                        </execution>
                    </executions>
                </plugin>

avro-maven-plugin外掛繫結在generate-sources階段，呼叫mvn generate-sources即可生成原始碼，我們來看下生成的原始碼

package com.sweetop.styhadoop;

/**
 * Autogenerated by Avro
 * <p/>
 * DO NOT EDIT DIRECTLY
 */
@SuppressWarnings("all")
/** A pair of strings */
public class StringPair extends org.apache.avro.specific.SpecificRecordBase implements org.apache.avro.specific.SpecificRecord {
    public static final org.apache.avro.Schema SCHEMA$ = new org.apache.avro.Schema.Parser().parse("{\"type\":\"record\",\"name\":\"StringPair\",\"doc\":\"A pair of strings\",\"fields\":[{\"name\":\"left\",\"type\":\"string\",\"avro.java.string\":\"String\"},{\"name\":\"right\",\"type\":\"string\"}]}");
    @Deprecated
    public java.lang.CharSequence left;
    @Deprecated
    public java.lang.CharSequence right;

    public org.apache.avro.Schema getSchema() {
        return SCHEMA$;
    }

    // Used by DatumWriter.  Applications should not call.
    public java.lang.Object get(int field$) {
        switch (field$) {
            case 0:
                return left;
            case 1:
                return right;
            default:
                throw new org.apache.avro.AvroRuntimeException("Bad index");
        }
    }

    // Used by DatumReader.  Applications should not call.
    @SuppressWarnings(value = "unchecked")
    public void put(int field$, java.lang.Object value$) {
        switch (field$) {
            case 0:
                left = (java.lang.CharSequence) value$;
                break;
            case 1:
                right = (java.lang.CharSequence) value$;
                break;
            default:
                throw new org.apache.avro.AvroRuntimeException("Bad index");
        }
    }

    /**
     * Gets the value of the 'left' field.
     */
    public java.lang.CharSequence getLeft() {
        return left;
    }

    /**
     * Sets the value of the 'left' field.
     *
     * @param value the value to set.
     */
    public void setLeft(java.lang.CharSequence value) {
        this.left = value;
    }

    /**
     * Gets the value of the 'right' field.
     */
    public java.lang.CharSequence getRight() {
        return right;
    }

    /**
     * Sets the value of the 'right' field.
     *
     * @param value the value to set.
     */
    public void setRight(java.lang.CharSequence value) {
        this.right = value;
    }
}

為了相容之前的版本生成了一組get，put方法，1.6.0後生成添加了getter/setter方法，還有一個與Builder的類，沒什麼用已經被我刪掉

另外上一篇文章有點沒講到就是schama裡的name裡可以使用名稱空間，如com.sweetop.styhadoop.StringPair，這樣生成的原始碼才會是帶package的

那我們來看如果使用這個生成的類，和generic方式有什麼不同：

package com.sweetop.styhadoop;

import junit.framework.Assert;
import org.apache.avro.Schema;
import org.apache.avro.io.*;
import org.apache.avro.specific.SpecificDatumReader;
import org.apache.avro.specific.SpecificDatumWriter;
import org.junit.Test;

import java.io.ByteArrayOutputStream;
import java.io.IOException;

/**
 * Created with IntelliJ IDEA.
 * User: lastsweetop
 * Date: 13-8-6
 * Time: 下午2:19
 * To change this template use File | Settings | File Templates.
 */
public class TestSprecificMapping {
    @Test
    public void test() throws IOException {
        //因為已經生成StringPair的原始碼，所以不再使用schema了，直接呼叫setter和getter即可
        StringPair datum=new StringPair();
        datum.setLeft("L");
        datum.setRight("R");

        ByteArrayOutputStream out=new ByteArrayOutputStream();
        //不再需要傳schema了，直接用StringPair作為範型和引數，
        DatumWriter<StringPair> writer=new SpecificDatumWriter<StringPair>(StringPair.class);
        Encoder encoder= EncoderFactory.get().binaryEncoder(out,null);
        writer.write(datum, encoder);
        encoder.flush();
        out.close();

        DatumReader<StringPair> reader=new SpecificDatumReader<StringPair>(StringPair.class);
        Decoder decoder= DecoderFactory.get().binaryDecoder(out.toByteArray(),null);
        StringPair result=reader.read(null,decoder);
        Assert.assertEquals("L",result.getLeft().toString());
        Assert.assertEquals("R",result.getRight().toString());
    }
}

不同點總結一下，schema->StringPair.class, GenericRecord->StringPair如果我的文章對您有幫助，請用支付寶打賞：

hadoop深入研究:(十六)——Avro序列化與反序列化

使用avro在很多情況下是對原有系統的改造，框架格式都已經定義好了，我們只能直接用avro對原有資料進行整合。（如果是新建系統，最好還是用avro的datafile，下一章講datafile）準備工作將一下schema儲存成檔案StringPair.avsc,放在src/te

hadoop深入研究:(十)——序列化與Writable介面

package com.sweetop.styhadoop; import junit.framework.Assert; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Writable; import org.ap

C#語法小知識（十六）序列化與反序列化（XML）

C#提供了兩類序列化與反序列化的手段，一種是XmlSerializer（名稱空間System.Xml.Serialization），另一種我們會在後續文章中介紹（參考C#語法小知識（十七）序列化與反序

hadoop深入研究:(十二)——自定義Writable

自定義Writablehadoop雖然已經實現了一些非常有用的Writable，而且你可以使用他們的組合做很多事情，但是如果你想構造一些更加複雜的結果，你可以自定義Writable來達到你的目的,我們以註釋的方式對自定義Writable進行講解（不許說我只帖程式碼佔篇幅哦，姿

Apache Avro 序列化與反序列化 (Java 實現)

Avro像兩個交流一樣要找一個互相能理解的語言, 在國內為普通話, 跑國外多用英語相通, 兩個進程間通信也需要找一個大家都能理解的數據格式. 簡單的如 JSON, XML, 那是自我描述性格式, XML 有 Schema 定義, 但尚無正式的 JSON Schema 規範. 在講求效率的場合, 純文本式的數據

Java IO詳解（六)------序列化與反序列化（物件流）

1、什麼是序列化與反序列化？序列化：指把堆記憶體中的 Java 物件資料，通過某種方式把物件儲存到磁碟檔案中或者傳遞給其他網路節點（在網路上傳輸）。這個過程稱為序列化。通俗來說就是將資料結構或物件轉換成二進位制串的過程　　反序列化：把磁碟檔案中

java io詳解六：序列化與反序列化（物件流）

1、什麼是序列化與反序列化？　　序列化：指把堆記憶體中的 Java 物件資料，通過某種方式把物件儲存到磁碟檔案中或者傳遞給其他網路節點（在網路上傳輸）。這個過程稱為序列化。通俗來說就是將資料結構或物件轉換成二進位制串的過程　　反序列化：把磁碟檔案中的物件資料或者把網路節點上的物件資料，恢

java jackson avro kryo等幾種序列化與反序列化工具的使用

最近由於工作需要，需要研究常用的集中序列化方式，主要目的是物件序列化後佔用空間會大大減少，便於儲存和傳輸，下面是幾種序列化方式的使用demo 1. Java自帶的Serialize 依賴jar包：無程式碼示意： import java.io.{ByteArrayInpu

Java核心類庫-IO-對象流（實現序列化與反序列化）

.get throws 反序 code row cts new java cep 使用對象流來完成序列化和反序列化操作：　　ObjectOutputStream：通過writeObject()方法做序列化操作的　　ObjectInputStream：通過readObje

Java IO-5 序列化與反序列化流

str ride log getname file urn turn objects transient 建一個Person類 1 package demo05; 2 3 import java.io.Serializable; 4 5 public cla

契約類相關的序列化與反序列化

pub ima cti 相關 ria 數據 num spa set 契約類指繼承了：DataContract的類。契約類常在WCF，webService等各種服務中作為傳輸數據使用。凡是契約類或者繼承了契約類的類，如果想要屬性參與序列化與反序列化，需要在屬性上加上標記：D

Java序列化與反序列化

setname [] 進制方式 gets 創建保存 ati 取數據 Java序列化與反序列化是什麽？為什麽需要序列化與反序列化？如何實現Java序列化與反序列化？本文圍繞這些問題進行了探討。 1.Java序列化與反序列化 Java序列化是指把Java對象轉換為字節序

asp.net mvc中如何處理字符串與對象之間的序列化與反序列化(一)

osi strong 類結構 plain pbo edate inf esc arp 前臺我們一般用ajax來發送數據到後端進行處理，如果json數據結構和後臺的實體類結構一致，就直接可以反序列化為指定的對象進行操作，非常方便。前端發送的json數據結構：後端實體結

C#對象序列化與反序列化

space ros 個人信息瀏覽器特性點名文件名屬性節點派生 1.對象序列化的介紹 (1).NET支持對象序列化的幾種方式二進制序列化：對象序列化之後是二進制形式的，通過BinaryFormatter類來實現的，這個類位於System.Runtime.Seri

Java將對象寫入文件讀出——序列化與反序列化

ansi print 成員 trace 對象的引用 ack lose 靜態 spa Java類中對象的序列化工作是通過ObjectOutputStream和ObjectInputStream來完成的。寫入： 1 File aFile=new File(

畢業項目畢業 -- pickle序列化與反序列化操作

style import 使用 python pan 項目 imp 序列化操作 Python可以使用pickle做序列化：序列化示例： import picklewith open(‘les.pickle‘, ‘wb‘) as f: pickle.du

C#語言-08.序列化與反序列化

clas 本質 cnblogs 語法信息字段使用 serializa col a. 序列化：是將對象的狀態存儲到特定存儲介質中的過程 i. 語法：public void Serialize(序列化過程的文件流，保存的對象)

Day4 閉包、裝飾器decorator、叠代器與生成器、面向過程編程、三元表達式、列表解析與生成器表達式、序列化與反序列化

反序 bsp pic nbsp tor 序列 space 列表解析列表 http://pic.cnhubei.com/space.php?uid=1774&do=album&id=1362489http://pic.cnhubei.com/space.ph

01. Java對象的序列化與反序列化簡介

語音 log -c object height 通訊圖片二進制進程　　　Java對象的序列化與反序列化 ; 給大家講解一下什麽是序列化 & 反序列化　　　　當兩個進程進行遠程通訊的時候，彼此相互可以發送各種類型的數據，如文本，圖片，語音和視頻等無論是任何

如何使用 JSON for Modern C++ 序列化與反序列號，換行符導致序列化失敗

http gb2 elf ldp c++ spi ssp 使用 b16 W48z士5742i4鍁鉀http://shequ.docin.com/qbvl66336 6j夠裝何掖tj嘔蔡5VLhttp://tushu.docin.com/olybb166 渤k搶97L巳綱鋅7

hadoop深入研究:(十六)——Avro序列化與反序列化

準備工作

generic方式

specific方式

相關推薦