MapReduce程式設計之Join多種應用場景與使用

阿新 • • 發佈：2019-02-02

這裡主要分析一下reduce join的一些不足。之所以會存在reduce join這種方式，是因為整體資料被分割了，每個map task只處理一部分資料而不能夠獲取到所有需要的join欄位，因此我們可以充分利用mapreduce框架的特性，讓他按照join key進行分割槽，將所有join key相同的記錄集中起來進行處理，所以reduce join這種方式就出現了。

這種方式的缺點很明顯就是會造成map和reduce端也就是shuffle階段出現大量的資料傳輸，效率很低。

Map join

Map Join 實現方式一

● 使用場景：一張表十分小、一張表很大。

● 用法:

在提交作業的時候先將小表文件放到該作業的DistributedCache中，然後從

DistributeCache中取出該小表進行join (比如放到Hash Map等等容器中)。然後掃描大表，

看大表中的每條記錄的join key /value值是否能夠在記憶體中找到相同join key的記錄，如果有則直接輸出結果。

DistributedCache是分散式快取的一種實現，它在整個MapReduce框架中起著相當重要的作用，他可以支撐我們寫一些相當複雜高效的分散式程式。說回到這裡，JobTracker在作業啟動之前會獲取到DistributedCache的資源uri列表，並將對應的檔案分發到各個涉及到該作

業的任務的TaskTracker上。另外，關於DistributedCache和作業的關係，比如許可權、儲存路徑區分、public和private等屬性。

● 程式碼實現：

MapReduce程式設計之Join多種應用場景與使用

Map join

MapReduce程式設計之Join多種應用場景與使用

MapReduce編程之Semi Join多種應用場景與使用

二十五、併發程式設計之join應用與實現原理剖析

JAVA面向物件程式設計之購物車介面的設計與功能的實現

中國HBase技術社群第八屆MeetUp ——HBase典型應用場景與實踐（南京站）

彈性伸縮的應用場景與限制條件

zookeeper(1)-應用場景與操作

中國HBase技術社群第九屆meetup-HBase典型應用場景與實踐（北京站）

資料庫SQL查詢效率in、exists、left join on、right join on 適用場景與比較

MapReduce程式設計之Combiner

ORACLE PL/SQL程式設計之六：把過程與函式說透(窮追猛打，把根兒都拔起!)

阿里雲移動推送服務應用場景與產品優勢

IOC容器的設計（三） —ApplicationContext 的應用場景與設計原理

zookeeper篇(1)-應用場景與操作

基於Hadoop大資料分析應用場景與實戰

基於Hadoop大數據分析應用場景與實戰

java 多執行緒程式設計之join()的用法

十六、併發程式設計之讀寫鎖認識與原理

十一、併發程式設計之Lock介面的認識與使用

python面向物件程式設計之封裝-繫結方法與非繫結方法

MapReduce程式設計之Join多種應用場景與使用

Map join

相關推薦