1. 程式人生 > 其它 >MaxCompute湖倉一體介紹

MaxCompute湖倉一體介紹

簡介:本篇內容分享了MaxCompute湖倉一體介紹。 分享人:孟碩 阿里雲 MaxCompute產品專家 

視訊連結:資料智慧實戰營-北京站 專題回顧

正文:

本篇內容將通過兩個部分來介紹MaxCompute湖倉一體。

一、什麼是 MaxCompute 湖倉一體

二、湖倉一體成功案例介紹

一、什麼是 MaxCompute 湖倉一體

湖倉一體的整體架構,主要面向資料分析師,資料科學家以及大資料工程師來使用。主要應用的業務有Machine,非結構化資料分析,Ad-hoc/BI,Reporting和Learning等等。在整體架構中,DataWorks作為資料統一開發管理的平臺,主要負責資料安全,開發IDE,任務排程和資料資產管理等綜合工作,確保平臺穩定執行。

如上圖所示,在整體架構中,我們首先將資料湖叢集和MaxCompute數倉叢集的網路打通,然後將儲存層的資料打通,確保智慧Cache,冷熱分層,儲存優化和效能加速。在計算層,我麼實現了DB級元資料的透視,避免資料孤島。

DataWorks統一了各種資料資產,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在資料地圖中看到全域的資料資產,而且還支援從資料來源裡抽取元素與資訊。

在阿里內部,我們實現了一定程度的資料民主化。現如今,阿里集團內部所有的表,員工都能夠看到表名稱和的元資料資訊,以及資訊的安全等級。DataWorks作為中颱:可以從列表中支援的資料來源採集資料,納入平臺管控。

目前,統一的表級、欄位級別資料血緣就現有的產品能力,只能侷限於單一引擎內部的跨血緣。預計明年能夠實現跨引擎的資料血緣。

在單一引擎內部,可以掛載多個hadoop叢集,實現統一引擎的對接與管理。

DataWorks作為統一的資料開發平臺,能夠將MC的任務和hadoop任務混編在一個流程中。不但可以統一臨時查詢入口,傳送給不同的引擎。而且可以將不同的引擎作業混合排程。比如資料整合作業,MaxCompute作業以及Hive作業等。

二、湖倉一體成功案例介紹

某互聯網遊戲公司的廣告演算法團隊是湖倉一體主要客戶,主要應用是機器學習DW+MC+PAI+EAS線上模型服務。該團隊的自服務程度高、需要一站式的機器學習平臺。而Hadoop叢集有多團隊共用,使用叢集管控較嚴,無法短時間支撐大workload的創新業務。
基於以上需求,我們通過湖倉一體,將新業務平臺與原有資料平臺打通,即PAI on MaxCompute+DataWorks。為客戶提供了一站式機器學習,模型開發、模型釋出,大規模計算等能力,提升了團隊的工作效率。

數禾公司通過引入MaxCompute作為計算引擎的資料中臺,不但讓資料湖計算自由流動,而且解決了先前異構計算引擎儲存管理,元資料管理和許可權管理不同統一的問題。不但提升了整體的工作效率,而且降低了運維成本,起到了降本增效的作用。

上圖是數禾公司構建的基於MaxCompute+DLF+EMR的湖倉一體架構。底層是OSS資料湖儲存,我們通過DLF構建了元資料管理,資料血緣管理,資料許可權管理。通過JindoFS+MC的方式,實現了資料的冷熱分層和本地快取。我們結合MaxCompute和EMR,成功實現了智慧資料構建與資料中臺管理。

在未來,湖倉統一開發管理平臺,能夠實現湖倉資料的一站式管理與治理。OSS的物件儲存不但支援結構化資料,也能支援非機構化資料。整個平臺不但能同步聯邦資料來源,而且能統一元資料服務和元資料倉庫。

原文連結

本文為阿里雲原創內容,未經允許不得轉載。