1. 程式人生 > >MapReduce作業大規模遷移Apache Spark在百度的實踐

MapReduce作業大規模遷移Apache Spark在百度的實踐

本文來自於2018年11月3日在上海舉辦的上海Spark+AI第十五次聚會。分享者葉先進,百度智慧雲技術二部, 高階研發工程師, 目前專注於分散式計算方向. 參與 Baidu 內部的 MR/Spark 的計算引擎研發, 是 Spark 社群的開源貢獻者。

Baidu 擁有世界領先規模的 Hadoop/Spark 叢集, 目前 MR 叢集在廠內仍有日均過 50P 級別的輸入資料處理量. 但隨著架構的變遷和 Spark 生態的不斷成熟, MR 在內部正在逐漸被 Spark 生態替換. 本分享介紹百度計算團隊推動 MR 遷移 Spark 的一些背景, 後面介紹了許多踩坑以及解決方案,值得大家學習。

立刻關注本微信公眾號

iteblog_hadoop 並回復 mr_to_spark 關鍵字獲取本文 PPT。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

猜你喜歡

歡迎關注本公眾號:iteblog_hadoop:

回覆 spark_summit_201806 下載 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018 下載 Spark+AI Summit europe 2018 全部PPT

0、回覆 電子書獲取 本站所有可下載的電子書

11、更多大資料文章歡迎訪問https://www.iteblog.com及本公眾號(iteblog_hadoop)12、Flink中文文件:http://flink.iteblog.com
13、Carbondata 中文文件http://carbondata.iteblog.com

640?wx_fmt=png