MapReduce作業大規模遷移Apache Spark在百度的實踐

阿新 • • 發佈：2019-01-07

本文來自於2018年11月3日在上海舉辦的上海Spark+AI第十五次聚會。分享者葉先進，百度智慧雲技術二部, 高階研發工程師, 目前專注於分散式計算方向. 參與 Baidu 內部的 MR/Spark 的計算引擎研發, 是 Spark 社群的開源貢獻者。

Baidu 擁有世界領先規模的 Hadoop/Spark 叢集, 目前 MR 叢集在廠內仍有日均過 50P 級別的輸入資料處理量. 但隨著架構的變遷和 Spark 生態的不斷成熟, MR 在內部正在逐漸被 Spark 生態替換. 本分享介紹百度計算團隊推動 MR 遷移 Spark 的一些背景, 後面介紹了許多踩坑以及解決方案，值得大家學習。

立刻關注本微信公眾號

iteblog_hadoop 並回復 mr_to_spark 關鍵字獲取本文 PPT。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

猜你喜歡

歡迎關注本公眾號：iteblog_hadoop:

回覆 spark_summit_201806 下載 Spark Summit North America 201806 全部PPT

回復 spark_summit_eu_2018 下載 Spark+AI Summit europe 2018 全部PPT

0、回覆 電子書獲取 本站所有可下載的電子書

11、更多大資料文章歡迎訪問https://www.iteblog.com及本公眾號(iteblog_hadoop)12、Flink中文文件：http://flink.iteblog.com

13、Carbondata 中文文件：http://carbondata.iteblog.com

640?wx_fmt=png

MapReduce作業大規模遷移Apache Spark在百度的實踐

本文來自於2018年11月3日在上海舉辦的上海Spark+AI第十五次聚會。分享者葉先進，百度智

百度面試總結：spark比MapReduce快的原因是什麼？（比較完整）

1、spark是基於記憶體進行資料處理的，MapReduce是基於磁碟進行資料處理的 MapReduce的設設計：中間結果儲存在檔案中，提高了可靠性，減少了記憶體佔用。但是犧牲了效能。 Spark的設計：資料在記憶體中進行交換，要快一些，但是記憶體這個東西，可靠性不如磁碟。所以效能方面比MapR

遷移之前百度空間博客09年到13年的文章

來看學習 img size afa log cto 之前分享 2009年開始記錄自己的IT技術學習經歷，一直放在百度空間。斷斷續續堅持到了2013年。後來換了工作，同時百度空間關閉，自己也沒有遷移數據到其他博客平臺。最近又想學點兒東西，想記錄一下。看來看去還是51

MapReduce作業調度

加米谷大數據加米谷 MapReduce作業調度大數據培訓可以通過設置mapred.job.priority屬性或JobClient的setJobPriority()方法來設置優先級（在這兩種方法中，可以選VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作為優

i春秋——“百度杯”CTF比賽九月場——123（Apache解析pht,phtml,php3等 php別名）

正則並不是 src 內容 img 直接 ctf inf bubuko 網頁源碼提示用戶信息在user.php中，直接訪問是不會有顯示的，於是查找相應的備份文件，vim交換文件等，最後發現/user.php.bak 用burp采用如下配置開始爆破最後爆破

百度面試總結：MapReduce中的超類有哪些

MapReduce中的類以及超類： package wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; im

爬蟲:php實現百度首頁書籤的獲取,以及百度首頁書籤的遷移

1,獲取舊賬戶的cookie,token等資料,從瀏覽器審查元素即可點選新增分類即可獲取到cookie token等資料 2,利用正則獲取書籤資訊資料(獲取舊賬戶的書籤資訊,併為新賬戶建立書籤分類,並存儲分類id,curl:為自己實現的類) public

【轉載】演講實錄：百度大規模深度學習應用實踐和開源AI框架PaddlePaddle

導語：本文根據PaddlePaddle技術負責人、百度NLP技術委員會主席於佃海在今年英特爾人工智慧大會上的演講——《百度大規模深度學習應用實踐和開源AI框架PaddlePaddle》整理而成。 PaddlePaddle技術負責人、百度NLP技術委員會主席於佃海正文：很高興能

開發一款簡單的百度小程式（由微信小程式遷移過來）

開發一款簡單的百度小程式（由微信小程式遷移過來）百度小程式剛出兩個月不久,上個週末閒來無事，看了一下百度小程式的文件，百度下程式的文件跟微信的差不了多少，就是一些api和語法會有一點差別，基本上能寫微信小程式的都能很快學會百度小程式！不過百度小程式的開發者工具真的沒有微信的好。我寫

Apache Spark – за рамками MapReduce

Виталий Федоренко (Vitalii Fedorenko), AWS Big Data Cloud Architect Данная статья это вольный перевод одного из наиболее популярных AWS п

最課程階段大作業05：汙水處理系統以及百度地圖

吃著火鍋唱著歌，我們的課程已經進行了兩個月了，現在，我們終於有能力進行真正的軟體開發了。往期學完課程面試歸來的同學，都知道有一句話：“面試造航母，實際工作擰螺絲釘”。很慶幸的是，到目前為止，你已經掌握了大部分擰螺絲釘需要的知識了，這些知識就是：JavaSE+HTML+CSS+JavaScript+JQ

mysql資料庫的無縫遷移（百度技術沙龍開放空間環境討論主題）

轉自http://www.cnblogs.com/sunli/archive/2010/09/12/mysql_migration_seamless.html 昨天（9月11號）參加了infoq和百度共同舉辦的技術沙龍《MySQL效能優化及空間資料庫開發實踐》，百度

使用百度api進行文字識別，完成英語作業

使用百度API進行文字識別，完成英語作業介紹這學期選了一門英語翻譯課，作業需要提交翻譯稿，但是老師為了防止我們利用翻譯軟體複製貼上，很精明的把需要翻譯的內容拍成了照片發給了我們。為了更“快”更“好“的完成作業，我就突發奇想，如果使用ocr識別照片中的文字，就不用手動把照片裡面

WPF仿百度Echarts人口遷移圖

轉換成參與 gpa 北京 gin file 地圖 die earch 原文:WPF仿百度Echarts人口遷移圖GitHub地址:https://github.com/ptddqr/wpf-echarts-map/tree/master 關於大名鼎鼎的百度Echarts

百度前端學院第17到18天和第16天的作業

終於學JavaScript了！陣列的相關引數陣列shift刪除第一個元素，pop刪除最後一個元素，返回的都是刪除的元素,unshift在開頭增加一個元素，push在結尾增加元素，splice用於刪除和修改，slice用於切片. *** 資料型別轉換一元的 + 運算子可用於把變數轉換為數字：如果無法轉換變

百度2017春招筆試真題編程題集合之尋找三角形

import math 可能表示 tint blog 整數 angle printf 題目描述三維空間中有N個點，每個點可能是三種顏色的其中之一，三種顏色分別是紅綠藍，分別用‘R‘, ‘G‘, ‘B‘表示。現在要找出三個點，並組成一個三角形，使得這個三角形的面積最大。

ASP.NET MVC5 中百度ueditor富文本編輯器的使用

編譯時間文本編輯器 ida height git aid asp ueditor jquery 隨著網站信息發布內容越來越多，越來越重視美觀，富文本編輯就是不可缺少的了，眾多編輯器比較後我選了百度的ueditor富文本編輯器。百度ueditor富文本編輯器分為兩種一種

百度分享

fig col -c attr min att cdn des () 1 <div class="bdsharebuttonbox" data-url="{url}" data-title="{title}"> 2 　　<a href="#" cla

百度編輯器在服務器置頂路徑解決上傳圖片創建目錄失敗的方法（Thinkphp）

插入 borde images tor true ges border name 線上 1、設置文件夾權限2、修改/* 前後端通信相關的配置,註釋只允許使用多行方式 */{ /* 上傳圖片配置項 */ "imageActionName": "uploadimag

修復百度編輯器插入視頻的bug

問題 tar groovy util 實現 eve width 告訴 tps 修復百度編輯器插入視頻的bug，可實時預覽視頻，可修改到支持手機查看視頻開程序員的淘寶店！尋找開源技術服務夥伴！>>> 站在前人的肩膀上我們就可以站的更高，看得更遠。所以，請