1. 程式人生 > >MR的join連接操作

MR的join連接操作

val pan table reduce 字段 分布式緩存 span 操作 style

  多表連接:將連接鍵(id)作為k2,v2采用自定義的Writable,writable中包含以下字段:標誌位字段+業務字段(可能多個);reduce端做笛卡爾積。

  自連接(單表關聯):對於給定的數據的key value 調換,並作些標記予以區別。

  map端連接:

    1.前提條件:小表盡可能小,一般情況在幾十兆下;

    2.DistributedCache:分布式緩存

MR的join連接操作