MaxCompute湖倉一體介紹

阿新 • • 發佈：2022-05-17

簡介：本篇內容分享了MaxCompute湖倉一體介紹。分享人：孟碩阿里雲 MaxCompute產品專家

正文：

本篇內容將通過兩個部分來介紹MaxCompute湖倉一體。

一、什麼是 MaxCompute 湖倉一體

二、湖倉一體成功案例介紹

一、什麼是 MaxCompute 湖倉一體

湖倉一體的整體架構，主要面向資料分析師，資料科學家以及大資料工程師來使用。主要應用的業務有Machine，非結構化資料分析，Ad-hoc/BI，Reporting和Learning等等。在整體架構中，DataWorks作為資料統一開發管理的平臺，主要負責資料安全，開發IDE，任務排程和資料資產管理等綜合工作，確保平臺穩定執行。

如上圖所示，在整體架構中，我們首先將資料湖叢集和MaxCompute數倉叢集的網路打通，然後將儲存層的資料打通，確保智慧Cache，冷熱分層，儲存優化和效能加速。在計算層，我麼實現了DB級元資料的透視，避免資料孤島。

DataWorks統一了各種資料資產，比如E-MapReduce，CDH HBase，CDH Hive和AnalyticDB for等。不但能在資料地圖中看到全域的資料資產，而且還支援從資料來源裡抽取元素與資訊。

在阿里內部，我們實現了一定程度的資料民主化。現如今，阿里集團內部所有的表，員工都能夠看到表名稱和的元資料資訊，以及資訊的安全等級。DataWorks作為中颱：可以從列表中支援的資料來源採集資料，納入平臺管控。

目前，統一的表級、欄位級別資料血緣就現有的產品能力，只能侷限於單一引擎內部的跨血緣。預計明年能夠實現跨引擎的資料血緣。

在單一引擎內部，可以掛載多個hadoop叢集，實現統一引擎的對接與管理。

DataWorks作為統一的資料開發平臺，能夠將MC的任務和hadoop任務混編在一個流程中。不但可以統一臨時查詢入口，傳送給不同的引擎。而且可以將不同的引擎作業混合排程。比如資料整合作業，MaxCompute作業以及Hive作業等。

二、湖倉一體成功案例介紹

某互聯網遊戲公司的廣告演算法團隊是湖倉一體主要客戶，主要應用是機器學習DW+MC+PAI+EAS線上模型服務。該團隊的自服務程度高、需要一站式的機器學習平臺。而Hadoop叢集有多團隊共用，使用叢集管控較嚴，無法短時間支撐大workload的創新業務。
基於以上需求，我們通過湖倉一體，將新業務平臺與原有資料平臺打通，即PAI on MaxCompute+DataWorks。為客戶提供了一站式機器學習，模型開發、模型釋出，大規模計算等能力，提升了團隊的工作效率。

數禾公司通過引入MaxCompute作為計算引擎的資料中臺，不但讓資料湖計算自由流動，而且解決了先前異構計算引擎儲存管理，元資料管理和許可權管理不同統一的問題。不但提升了整體的工作效率，而且降低了運維成本，起到了降本增效的作用。

上圖是數禾公司構建的基於MaxCompute+DLF+EMR的湖倉一體架構。底層是OSS資料湖儲存，我們通過DLF構建了元資料管理，資料血緣管理，資料許可權管理。通過JindoFS+MC的方式，實現了資料的冷熱分層和本地快取。我們結合MaxCompute和EMR，成功實現了智慧資料構建與資料中臺管理。

在未來，湖倉統一開發管理平臺，能夠實現湖倉資料的一站式管理與治理。OSS的物件儲存不但支援結構化資料，也能支援非機構化資料。整個平臺不但能同步聯邦資料來源，而且能統一元資料服務和元資料倉庫。

原文連結

本文為阿里雲原創內容，未經允許不得轉載。

MaxCompute湖倉一體介紹

一、什麼是 MaxCompute 湖倉一體

二、湖倉一體成功案例介紹

MaxCompute湖倉一體介紹

湖倉一體：從零開始搭建資料倉庫

37 手遊基於 Flink CDC + Hudi 湖倉一體方案實踐

基於Delta lake、Hudi格式的湖倉一體方案

湖倉一體天花板，大資料一站式SQL分析技術實踐

湖倉一體（Data LakeHouse），到底是在聊什麼？

「湖倉一體」釋放全量資料價值！巨杉資料庫亮相2022沙丘大會

[轉載]資料湖與資料倉庫的新未來：阿里提出湖倉一體架構

《上行戰場》網路接入倉機制介紹

Apache Hudi在華米科技的應用-湖倉一體化改造

基於Flink+Hive+Kafka的流批一體數倉實踐--02模擬kafka生產資料

基於MRS-Hudi構建資料湖的典型應用場景介紹

OpenGL學習（十）-- 著色語言 GLSL 語法介紹

WCCgiMock——客戶端模擬網路回包工具介紹

推薦收藏 —— MySQL檢視詳細介紹

史上最全 Java 中各種鎖的介紹

詳細介紹 Go 中如何實現 bitset

ReactiveX使用介紹

爬蟲的介紹

(一) 《Nest.js：漸進式node.js框架》介紹

MaxCompute湖倉一體介紹

一、什麼是 MaxCompute 湖倉一體

二、湖倉一體成功案例介紹

相關推薦