1. 程式人生 > >Hadoop_21_編寫MapReduce程序實現Join功能

Hadoop_21_編寫MapReduce程序實現Join功能

持久化 tle 格式 AD style tro 消息 clas HA

1.序列化與Writable接口

1.1.hadoop的序列化格式

  序列化和反序列化就是結構化對象和字節流之間的轉換,主要用在內部進程的通訊和持久化存儲方面

  hadoop在節點間的內部通訊使用的是RPC,RPC協議把消息翻譯成二進制字節流發送到遠程節點,遠程節點再通過反序 列化把二進制流轉成原始的信息     hadoop自身的序列化存儲格式實現了Writable接口的類,他只實現了前面壓縮和快速。但是不容易擴展也不跨語言   我們先來看下Writable接口,Writable接口定義了兩個方法:   1.將數據寫入到二進制流中   2.從二進制數據流中讀取數據   技術分享圖片

2.reduce端join算法實現

  

Hadoop_21_編寫MapReduce程序實現Join功能