資料開發_資料湖
阿新 • • 發佈:2020-12-07
資料湖技術
資料湖(Data Lake)
開源的資料湖技術: delta、hudi、iceberg
儲存--資料組織的管理
邏輯上儲存通常分為塊儲存 檔案儲存 物件儲存 檔案儲存 阿里雲 檔案儲存 CPFS(Cloud Paralleled File System) 騰訊 檔案儲存 CFS(Cloud File Storage) 華為 彈性 檔案服務 SFS(Scalable File Service) 百度 智慧雲 檔案儲存 CFS(Cloud File System) 物件儲存 阿里雲 物件儲存 服務 OSS(Object Storage Service) 騰訊 物件儲存 COS(Cloud Object Storage) 華為 物件儲存 服務 OBS(Object Storage Service) 百度 物件儲存 BOS(Baidu Object Storage) 說明: 系統層級的分佈 底層往上看,最底層就是硬碟 三種儲存是按照塊->檔案->物件逐級向上 資料結構: 塊儲存的資料結構是陣列,而檔案儲存是二叉樹(B,B-,B ,B*各種樹),物件儲存基本上都是雜湊表。
大資料平臺系統
###排程系統 資源排程 : 如何將叢集的CPU、Memory資源在多個任務之間排程 YARN 任務排程 : DAG有向無環圖 Apache Airflow 1.時區和時間 2.時間: 執行時間(execute date) Airflow 有著非常完備的 UI 介面和監控手段 資源排程和任務排程 Quartz 為代表的定時類排程系統 和 以 DAG 為核心的工作流排程系統 Quartz 適用於後端業務開發 1.Linux 系統自帶的定時任務(Crontab) 2.Apache Airflow 排程系統 核心的有 DAG 、Operators 、Tasks 三個概念 服務排程 伏羲 - 阿里雲分散式排程系統
其他
批流一體化
儲存和計算分離
業務系統和資料系統複用
雲端計算和邊緣計算