1. 程式人生 > >EMR:一體化Hadoop雲上工作平臺

EMR:一體化Hadoop雲上工作平臺

不足 科學家 bin 允許 oozie 庫存 通信 streaming ase

摘要: Hadoop生態體系日臻完善,如何利用Hadoop生態各項技術與阿裏雲更好的服務於企業。EMR最新發布的工作流管理、彈性伸縮、異構計算多項功能,更好的助力用戶在阿裏雲上利用Hadoop、Spark生態體系解決企業大數據問題。

Hadoop生態體系日臻完善,如何利用Hadoop生態各項技術與阿裏雲更好的服務於企業。EMR最新發布的工作流管理、彈性伸縮、異構計算多項功能,更好的助力用戶在阿裏雲上利用Hadoop、Spark生態體系解決企業大數據問題。

EMR數據開發工作臺
EMR數據開發工作臺集成了作業編輯、工作編輯和臨時查詢等功能,能更好的滿足用戶雲上離線數據處理、數據分析和探索挖掘等場景。主要特點在於:

支持多樣化的大數據作業,支持shell,Hive,MapReduce,Spark,SparkStreaming等多種離線,實時類型作業,企業數據開發人員可在線編輯,調試。
更低的數據開發門檻,用戶通過拖拽式的大數據開發完成數據的接入,相較於Oozie、Azkaban等開源解決方案,運營人員,數據科學家可以更直觀的進行大數據開發。
交互式數據探索,為用戶提供交互式Hive、SparkSQL查詢、分析,快速提取海量數據價值。
集群彈性伸縮
EMR彈性伸縮能更好的縫合公有雲計算資源彈性和Hadoop生態體系開放的兩大優勢,實現計算資源根據集群繁忙程度彈性伸縮,幫助企業降低Hadoop資源的使用成本。

定時擴縮容集群,用戶設置在制定時間對集群進行擴容、縮容,滿足日報、周報、月報等需臨時追加計算資源的場景。

支持多種ECS實例,受ECS庫存影響,彈性伸縮會由於庫存不足造成執行失敗,為提升伸縮動作執行成功概率,彈性伸縮可同時支持多種ECS實例,且能一次性把盡量多的庫存資源全部買出,保證集群資源。
EMR Learning
深度學習、AI以成為目前炙手可熱的詞匯,EMR Learning將深度學習和開源大數據技術深度結合,提供一體化的大數據+深度學習服務。利用一個集群,構建企業數據湖,同時進行機器學習和深度學習。

支持ECS CPU+GPU的異構計算,通過Hadoop YARN調度集群GPU資源
支持Horvod,TensorFlow,SparkML等計算框架,一個集群內進行機器學習和深度學習。
可采用PS、MPI等數據通信模式,解決深度學習的通信瓶頸

支持Docker,Muti-Env多運行環境隔離
了解更多大數據家族產品詳情,歡迎點擊:
https://et.aliyun.com/bigdatarelease
點擊觀看大數據家族產品發布會:
https://yq.aliyun.com/webinar/play/508
【阿裏雲新品發布】開啟新一代數據智能開發之路:
https://yq.aliyun.com/roundtable/325525

原文鏈接

本文為雲棲社區原創內容,未經允許不得轉載。

EMR:一體化Hadoop雲上工作平臺