Hadoop使用ByteWritable時的一個注意事項

阿新 • • 發佈：2019-01-31

今天使用ByteWritable時候遇到了問題，浪費了好多時間，最後通過檢視ByteWritable的原始碼才解決這個問題。分享一下，希望能幫助別人節約點時間。

自己寫了一個類繼承了RecordReader<IntWritable, BytesWritable>，在這裡value是使用BytesWritable，並且列印了一下byte[]

for(byte b : contents){ System.out.print(b); } System.out.println("Len" + contents.length); value.set(contents, 0, contents.length);

輸出如下：

-27-128-110-26-114-11032-25-76-94-27-68-10732-26-106-121-26-95-9332Len21

在Mapper裡輸入自然是<IntWritable, BytesWritable>，但是我用這個方法列印穿過來的BytesWritable型別的contents時候，確不和上面的結果相同:

for(byte b : content.getBytes()){ System.out.print(b); } System.out.println("Len"+content.getBytes().length);

輸出是：

-27-128-110-26-114-11032-25-76-94-27-68-10732-26-106-121-26-95-93320000000000Len31

注意到長度是不一樣的，但是前21個內容是相同的。這是由於Hadoop裡面BytesWritable的實現機制造成的，BytesWritable的實現中，儲存了一個byte[]存放內容，一個int size表示byte數組裡面前多少位是有效的，後面的是無效的，但是ByteWritable的getBytes()方法返回的確實byte陣列的全部內容（長度很可能大於size），所以在Mapper中進行處理的時候應該只操縱size大小的內容後面的應該無視掉，如：

new String(content.getBytes(),0,content.getLength())

Hadoop使用ByteWritable時的一個注意事項

配置Apache Kafka的zookeeper配置檔案zookeeper.properties時的一個注意事項

在一個FragmentTransaction中進行多個操作時的注意事項

Hadoop使用ByteWritable時的一個注意事項

Python MD5加密詳解以及多次加密時的注意事項

在Vue中迴圈生成多選框CheckBox時的注意事項

Oracle資料庫表設計時的注意事項

揭露動畫實現時的注意事項（附上bug-logcat）

SVN服務端的版本對比及建立倉庫時的注意事項

使用變頻電源時的注意事項

STM32F407ZG微控制器晶振由例程預設推薦的8M換為自定義的4-26M時的注意事項

PHP 在foreach中使用&時的注意事項

小程式成長之路_給頁面新增tabBar 和新增tabBar時的注意事項（三）

caffe微調網路時的注意事項（持續更新中）

python爬蟲使用POST登入時的注意事項

安裝Linux 18.04作為第二系統時的注意事項和解決方案（第一系統是windows10 ）

序列化內部類時的注意事項

Java中物件流使用的一個注意事項

C語言在嵌入式系統程式設計時的注意事項1

關於STM32定時器使用的一個注意事項(以此為前車之鑑，重要！)

Mysql使用sum函式時的注意事項

Hadoop使用ByteWritable時的一個注意事項

相關推薦