Hadoop Serialization -- hadoop序列化詳解 (2)【Text,BytesWritable,NullWritable】

阿新 • • 發佈：2019-02-16

回顧： 回顧序列化，其實原書的結構很清晰，我截圖給出書中的章節結構：

序列化最主要的，最底層的是實現writable介面，wiritable規定讀和寫的遊戲規則（void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException;）。為了適應hadoop的mapreduce的運算特性，也就是map 和reduce對key的比較，排序的功能，就要實現Comparable介面，這個介面規定 public int compareTo(T o);這個方法。為了增強處理大資料集的能力，我們不能老是先序列化，傳輸，反序列化，然後進行比較compare,太消耗時間和效能了，我們有了增強的RawComparator，RawComparator是Comparator的增強版，可以比較沒有被反序列化的資料。

hadoop需要處理的資料五花八門，java具有的基本資料型別都有可能在hadoop中出現，hadoop因此包裝了java的基本資料型別使他們實現以上的介面並且給予實現細節。這些類都實現了WritableComparable介面，插上飛翔的翅膀，可以在不同的hadoop節點之間毫無障礙的傳輸了，如入無人之境。

既然Text拿出來單獨討論。自然就要好好研究一下Text的實現細節，對於我們對hadoop的設計細節和思想太重要太重要。 Text是UTF-8字串的Writable實現。被看做是java String型別的替換。Text 類代替了UTF8 類， UTF8 類不支援編碼大於32767 個位元組的字元.使用了Java 改進過的UTF-8.

Text 使用int 型(使用一個可變長度的編碼方案)在字元感編碼中儲存位元組數. 最大值是2 GB 。此外， Text 使用標準的UTF芯，使其更易於與理解U T F-8 的其他工具協同工作. 為什麼是2GB，我估計很少人會思考這個問題，我們簡單計算一下：利用int儲存位元組長度，int最大是2^31-1，那麼位元組最大長度就是2^31-1 Text能夠容納的大小R=（2^31-1）/1024/1024/1024=1.99999999=2GB 因此我們使用他的時候要知道他的大小是有限制的。由於強調使用標準的UTF8，所以Text 和Java 的String 類之間還是有一些區別的。Text 類的索引位於編碼後的位元組系列中，而不是字串中的

Unicode 字元.或Java 的char 編碼單元{如同String 一樣)。舉例如下：這方面的差異用中文就很好的說明這個問題。 String line = "滾滾長江東逝水"; System.out.println(line.length()); Text text = new Text(line); System.out.println(text.getLength()); System.out.println(line.charAt(2)); System.out.println(text.charAt(2)); 輸出： 7 21 長
-1 String line = "merry christmas"; System.out.println(line.length()); Text text = new Text(line); System.out.println(text.getLength()); System.out.println(line.charAt(2)); System.out.println(text.charAt(2)); 輸出： 15 15 r 114 可以看出來，他們的索引（Index)是真的不一樣，同一個索引值取出來的並不是同一個東西。注意， charAt ( )返回了一個int 型別來表示Unicode 程式碼點，而不是像String 變量那樣返回一個char 型別。在開始使用一個以上位元組進行編碼的字元（例如中文！！）， Text 和String 之間的區別是很明顯的。下表展示了Unicode的程式碼點。

U+0041 程式碼點對應大寫字母A 一直到U+00DFUTF-8都是一個位元組編碼，剩下的都是兩個位元組以上。而對於java，最後一行，只有最後一個程式碼點是兩個，其他的都是一個位元組的。這點差別很大。怕很多人不懂程式碼點，我再解釋一下： Unicode 是通用字元編碼標準，用於表示文字以供計算機處理。Unicode 提供了一種對多語種文字進行一致編碼的方法，便於國際文字檔案的交換。每個 Unicode 字元均對映到一個程式碼點，程式碼點是一個介於 0 和 1,114,111 之間的整數。Unicode 程式碼點使用 U+nnnn 形式的表示法來表示（其中 nnnn 是程式碼點的十六進位制數），或使用描述程式碼點的文字字串來表示。例如，小寫字母 “a” 可以用 U+0061 或文字字串 "LATIN SMALL LETTER A" 來表示。程式碼點可以使用不同的字元編碼方案進行編碼。在 Oracle Solaris Unicode 語言環境中，使用的是 UTF-8 形式。UTF-8 是 Unicode 的一種可變長度編碼形式，它透明地保留了 ASCII 字元程式碼值（請參見UTF-8 概述）。程式碼點就是一個字元在Unicode中對應的編碼。 String 的長度是它包括的字元個數，但Text 物件的長度是其UTF -8 編碼的位元組數. 同樣， indexOf () 方泣返回一個char 型別的編碼單元的索引，find () 方格是位元組偏移量.請看例子： @Test public void string() throws UnsupportedEncodingException { String s = "\u0041\u00DF\u6771\uD801\uDC00"; assertThat(s.length(), is(5)); assertThat(s.getBytes("UTF-8").length, is(10)); assertThat(s.indexOf("\u0041"), is(0)); assertThat(s.indexOf("\u00DF"), is(1)); assertThat(s.indexOf("\u6771"), is(2)); assertThat(s.indexOf("\uD801\uDC00"), is(3)); assertThat(s.charAt(0), is('\u0041')); assertThat(s.charAt(1), is('\u00DF')); assertThat(s.charAt(2), is('\u6771')); assertThat(s.charAt(3), is('\uD801')); assertThat(s.charAt(4), is('\uDC00')); assertThat(s.codePointAt(0), is(0x0041)); assertThat(s.codePointAt(1), is(0x00DF)); assertThat(s.codePointAt(2), is(0x6771)); assertThat(s.codePointAt(3), is(0x10400)); } @Test public void text() { Text t = new Text("\u0041\u00DF\u6771\uD801\uDC00"); assertThat(t.getLength(), is(10)); //10 = 1+2+3+4 是其UTF -8 編碼的位元組數 assertThat(t.find("\u0041"), is(0)); assertThat(t.find("\u00DF"), is(1)); assertThat(t.find("\u6771"), is(3)); assertThat(t.find("\uD801\uDC00"), is(6)); assertThat(t.charAt(0), is(0x0041)); assertThat(t.charAt(1), is(0x00DF)); assertThat(t.charAt(3), is(0x6771)); assertThat(t.charAt(6), is(0x10400)); } 遍歷Text,迭代 迭代使用索引的位元組偏移對Text 中的Unicode 字元進行途代是很複雜的，因為你不能只增加索引。迭代的定義有點模糊(見例4-6 ) 將Text 物件變成java.nio.ByteBuffer然後對緩衝的Text 反覆呼叫bytesToCodePoint() 靜態方法.這個方泣提取下一個程式碼點作為int 然後更新緩衝中的位置。當bytesToCodePoint() 返回- 1 時，檢測到字元結束。意思就是說，我們取字元的時候，是一整個一整個字元的取，我們不能夠按照索引來取，我們按照程式碼點整個整個的取。 public class TextIterator { public static void main(String[] args) { Text t = new Text("\u0041\u00DF\u6771\uD801\uDC00"); ByteBuffer buf = ByteBuffer.wrap(t.getBytes(), 0, t.getLength()); int cp; while (buf.hasRemaining() && (cp = Text.bytesToCodePoint(buf)) != -1) { System.out.println(Integer.toHexString(cp)); } } } 輸出： 41 df 6771 10400 可修改性 String 和Text 的另一個區別在於可修改性(像Hadoop 中的所有Writable 實視一樣，但NullWritable 除外，後者是單例項物件)。我們可以通過對它呼叫set() 函式來重用Text 例項。示例如下: Text t = new Text("hadoop"); t.set("pig"); assertThat(t.getLength(), is(3)); assertThat(t.getBytes().length, is(3)); 轉為字串 Text 不像java. l ang.String 一樣有一個可以處理字串的API ，所以在許多情況下，需要將Text 物件轉化為String 物件。這通常用toString()方法來完成。 assertThat(new Text("hadoop ") . toString() , is( "hadoop")); BytesWritable BytesWritable 是一個二進位制資料陣列封裝。它的序列化格式是一個int 欄位(4位元組) ，指定的是位元組數及位元組本身。例如，一個長度為2 ，值為3 和5 的位元組數組序列化為一個4 位元組的整數(00000002)加上兩個來自陣列的位元組(03 和05) 。 BytesWritable b = new BytesWritable(new byte[] { 3, 5 }); byte[] bytes = serialize(b); assertThat(StringUtils.byteToHexString(bytes), is("000000020305")); BytesWritab1e 是可變的，其值可通過呼叫set ( )方撞來改變。和Text一樣，從getBytes ( )方法返回的位元組陣列大小可能並沒有反映出儲存在BytesWritable 的資料的實際大小.可以通過呼叫getLength () 方法來確定BytesWritable 的長度，例如: b.setCapacity(11); assertThat(b.getLength(), is(2)); assertThat(b.getBytes().length, is(11)); NullWritable NullWritable 是一種特殊的Writable 型別，因為它的序列化是零長度的。沒有位元組被寫入流或從流中讀出.它被用作佔位符.例如，在MapReduce 中，在不需要這個位置的時候，鍵或值可以被宣告為NullWritable，他有效儲存了一個不變的空值。NullWritable 也可以很有用，在打算儲存一系列值的時候，作為SequenceFile 的一個鍵，而不是鍵/值對。它是一個不變的單例項，其例項可以通過呼叫NullWritable.get() 方法來檢索。今天就到這裡。 Charles 2015-12-24晚於P.P 版權說明：本文由Charles Dong原創，本人支援開源以及免費有益的傳播，反對商業化謀利。 CSDN部落格：http://blog.csdn.net/mrcharles 個人站：http://blog.xingbod.cn EMAIL：[email protected]

Hadoop Serialization -- hadoop序列化詳解 (2)【Text,BytesWritable,NullWritable】

Hadoop Serialization -- hadoop序列化詳解 (2)【Text,BytesWritable,NullWritable】

Hadoop Serialization -- hadoop序列化具體解釋 (2)【Text,BytesWritable,NullWritable】

Java物件的序列化（Serialization）和反序列化詳解

java 物件的序列化詳解

物件序列化詳解

Hessian序列化詳解

java 序列化和反序列化詳解

Java序列化詳解

hadoop中的序列化

hadoop環境安裝配置步驟詳解

Hadoop Mapreduce的shuffle過程詳解

hadoop的資料序列化型別

Hadoop hadoop yarn 指令相關引數詳解

Hadoop--倒排索引過程詳解

Hadoop - HDFS - MapReduce - YARN - HA詳解

Hadoop之本地執行模式詳解

Hadoop分散式檔案系統——HDFS詳解

WebStorm2018.1.5安裝破解及漢化詳解適用於WebStorm2018.2

Hadoop核心架構內部機理詳解

3.hadoop中的序列化

Hadoop Serialization -- hadoop序列化詳解 (2)【Text,BytesWritable,NullWritable】

相關推薦