七、MapReduce的Shuffle和Spark的Shuffle異同？談一談各自的特點和過程。

阿新 • • 發佈：2019-09-23

1、MapReduce的Shuffle機制：

在MapReduce框架中，shuffle是連線Map和Reduce之間的橋樑，Map大的輸出要用到Reduce中必須經過shuffle這個環節，

shuffle的效能高低直接影響了整個程式的效能和吞吐量。 Shuffle是MapReduce框架中的一個特定的phase，介於Map phase和Reduce phase之間，當Map的輸出結果要被Reduce使用時，輸出結果需要按key雜湊，並且分發到每一個Reducer上去，這個過程就是shuffle。 由於shuffle涉及到了磁碟的讀寫和網路的傳輸，因此shuffle效能的高低直接影響到了整個程式的執行效率。

2：Spark的Shuffle機制： Spark中的Shuffle是 把一組無規則的資料儘量轉換成一組具有一定規則的資料。 Spark計算模型是 在分散式的環境下計算的，這就不可能在單程序空間中容納所有的計算資料來進行計算，這樣資料就按照Key進行分割槽，分配成一塊一塊的小分割槽，打散分佈在叢集的各個程序的記憶體空間中，並不是所有計算運算元都滿足於按照一種方式分割槽進行計算。當需要對資料進行排序儲存時，就有了重新按照一定的規則對資料重新分割槽的必要， Shuffle就是包裹在各種需要重分割槽的運算元之下的一個對資料進行重新組合的過程。

在邏輯上還可以這樣理解：由於重新分割槽需要知道分割槽規則，而分割槽規則按照資料的Key通過對映函式（Hash或者Range等）進行劃分，由資料確定出Key的過程就是Map過程，同時Map過程也可以做資料處理，例如，在Join演算法中有一個很經典的演算法叫Map Side Join，就是確定資料該放到哪個分割槽的邏輯定義階段。 Shuffle將資料進行收集分配到指定Reduce分割槽，Reduce階段根據函式對相應的分割槽做Reduce所需的函式

相關推薦

七、MapReduce的Shuffle和Spark的Shuffle異同？談一談各自的特點和過程。

1、MapReduce的Shuffle機制：在MapReduce框架中，shuffle是連線Map和Reduce之間的橋樑，M

談一談Hibernate的一級快取、二級快取和查詢快取

Hibernate的Session提供了一級快取的功能，預設總是有效的，當應用程式儲存持久化實體、修改持久化實體時，Session並不會立即把這種改變提交到資料庫，而是快取在當前的Session中，除非顯示呼叫了Session的flush()方法或通過close

談一談getchar()、EOF和Ctrl+D

getchar() getchar從stdio流中讀字元,getchar有一個int型的返回值.當程式呼叫getchar時.程式就等著使用者按鍵.使用者輸入的字元被存放在鍵盤緩衝區中.直到使

《未來簡史》七、表面水火不容實則不離不棄—科學和宗教婚姻

idt 為什麽電信依然冰淇淋也會構建德國能夠前情回顧《未來簡史》整本書361頁，而前面有251頁都是在講述人類的過去。為什麽呢？因為歸根結底：我們人類本就是地球上千萬種動物中的其中一員，在我們即將把自己

談一談JS和Jquery初始化的問題

今天在做一個拖拽的demo時候遇到了一個bug,我的程式碼和原始碼一模一樣，但是卻沒有效果，經過數小時琢磨發現，是jquery初始化的問題；現在貼上我的程式碼 <!DOCTYPE html> <html lang="en"> <head> <meta

談一談python中的魔法變數*args和**kwargs

導讀最近看了看github大佬寫的程式碼後，發現自己之前寫的程式碼就是個，沒有註釋，沒有封裝，沒有可讀性。哎，幸虧發現及時，現在正在寫一個新的任務，剛好可以好好弄弄架構和程式碼了在弄程式碼期間發現了*args和**kwargs這兩個引數大佬們有時候經常用，當然最多的其實是在閱讀pytho

談一談最近所理解的MVC和過去對MVC的理解。

之前無意間看到過一篇騰訊大佬所寫的關於網站優化的文章，裡面提到了他在優化當時一個站點的時候看到大家所寫的程式碼中C層互調的事情，具體的言語已經記不太清楚，但是大佬的意思就是說要程式碼規範，C層不能互相呼叫，讓C層去調M層，M層中可以相互呼叫。

談一談CSS的選擇器和工作原理

既然我們是談CSS，那我們先來說一下什麼是CSS？層疊樣式表(英文全稱：Cascading Style Sheets)是一種用來表現HTML（標準通用標記語言的一個應用）或XML（標準通用標記語言的一個子集）等檔案樣式的計算機語言。CSS不僅可以靜態地修飾網頁，還可以配合

談一談php://input和php://output

對一php://input介紹，PHP官方手冊文件有一段話對它進行了很明確地概述。 php://input 是個可以訪問請求的原始資料的只讀流。 POST 請求的情況下，最好使用 php://input 來代替 $HTTP_RAW_POST_DATA（原生的post資料）

談一談我對java單繼承和多繼承的理解。

今天終於重拾書本，感覺好久好久沒有認真看過書了樣。好了不說廢話了。偶是菜鳥，可能理解有誤。高手們指點指點哦。今天看那書上說：java是但繼承，並不支援多繼承，後來又講到java支援多繼承，是在介面的基礎上實現多繼承。總的來說還是不支援多繼承，要通過其他方式來彌補jav

轉importnew阿里面試回來，想和 Java 程式設計師談一談（職業學習規劃參考）

（點選上方公眾號，可快速關注）引言其實本來真的沒打算寫這篇文章，主要是LZ得記憶力不是很好，不像一些記憶力強的人，面試完以後，幾乎能把自己和麵試官的對話都給記下來。LZ自己當初面試完以後，除了記住一些聊過的知識點以外，具體的內容基本上忘得一乾二淨，所以寫這篇文章其實是很有難度的。但是

談一談修改程式碼時加註釋的原則和方法

暮鼓集行走集原作於2008年06月01日，軟體部培訓稿我們修改程式碼時少不了要加一些註釋，這基本的原則是“言簡意賅”，只要做到大家能看懂，在版本比較工具(BC及VSS)中能一目瞭然，這就可以了。下面介紹一些方法供大家參考：

阿里面試回來，想和Java程式設計師談一談

引言其實本來真的沒打算寫這篇文章，主要是LZ得記憶力不是很好，不像一些記憶力強的人，面試完以後，幾乎能把自己和麵試官的對話都給記下來。LZ自己當初面試完以後，除了記住一些聊過的知識點以外，具體的內容基本上忘得一乾二淨，所以寫這篇文章其實是很有難度的。但是，最近問LZ的人

談一談a:link、a:visited、a:hover、a:active的正確使用順序

今天學到一個有趣的新知識呢，迫不及待的想分享一下。自學前端的這條路上，還在基礎部分打轉，未來好難，走好現在腳下的每一步才是我現在最重要的。小小地感慨一下，下面進入正題吧。 1. <a>

談一談Web App和Native App的優勢和劣勢

對於第一次想要做APP的客戶來說，如何去做APP是一件頭疼的事情，我想做APP，但是又不知道APP開發是個怎樣的事情，下面就讓創息軟體的小編為您細細道來：在不就的將來，APP的生態鏈到底是Web App

談一談C#中File類和FileInfo類的區別

File類是一個靜態類，優點：呼叫簡單；缺點：始終消耗CPU資源。FileInfo類是一個例項類，優點：呼叫完就釋放CPU資源；缺點：操作複雜這裡用一個讀取一篇文章幷包含空格，處理空格後，再寫回去的操作來演示兩者是如何對檔案進行操作的。File類： //

談一談"大公司定標準、中公司搞專利、小公司賣苦力"

“一流企業定標準、二流企業做品牌、三流企業賣技術、四流企業做產品”是經濟發展的普遍規律，　標準之爭其實是市場之爭。誰掌握了標準，就意味著先行拿到市場的入場券，甚至成為行業的定義者上個世紀以

從一張圖開始，談一談.NET Core和前後端技術的演進之路

應用 git 毫無 info 開發者 pan 美麗過去的最終從一張圖開始，談一談.NET Core和前後端技術的演進之路　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　鄒溪源，李文強，來自長沙.NET

談一談跑PHP計劃任務

amp reg dmi content set cnblogs input span put 公司所用計劃任務均是大概這樣子的： */2 * * * * root cd /opt/xxxx/test_S1/html/xxxx/admin; php index.php ta

談一談商品編碼的問題

什麽是開發測試 upd 無奈是不是默認修改都沒有做了如題：今天談一談商品編碼的問題，我們不是完全從物流和商品本身的角度去談商品該怎麽編碼才符合國際標準，EAN，UPC啥啥啥怎麽樣的。我們從計算機程序設計，電商，數據庫存儲的角度看一看商品編碼，首先商品有哪些編碼