Pandora資料工廠之概述
阿新 • • 發佈:2018-12-02
Pandora資料工廠
Pandora資料工廠是大資料領域PaaS平臺,是一站式的DW能力平臺,提供資料整合、資料儲存、資料開發、資料管理、資料治理和資料服務等全方位的產品服務。
Pandora資料工廠是用於工作流視覺化開發和託管任務排程的海量資料離線加工分析平臺,支援按照時間和依賴關係的任務全面託管排程,支援每日千萬級別的任務按照DAG關係準確、準時執行,提供視覺化的任務監控管理工具,支援以 DAG 圖的形式展示任務執行時的全域性情況等使用。
資料的分析流程如下:
一、名詞說明
-
專案空間(Project)是 Pandora的基本組織單元,它類似於傳統資料庫的 Schema 的概念,是進行多使用者隔離和訪問控制的主要邊界。一個專案組可以同時擁有多個專案空間的許可權,可以訪問專案空間的物件,例如:
表、資料儲存、資料,資源、函式和任務例項。
-
Pandora資料工廠
-
資料整合即為ETL
-
資料管理即為資料治理
-
資料開發即為資料計算包括資料的離線計算和流式計算
-
資料服務即為資料交換中的資料服務
-
資料交換包括資料的四個方面:資料審計、資料許可權和資料服務
二、基礎架構
Pandora採用的技術棧如下圖:
三、功能概述
Pandora資料工廠功能如下:
1. 任務排程
- 排程任務
提供強大的排程能力,支援按照時間、依賴關係的任務觸發機制,支援每日千萬級別的任務按照DAG關係準確、準時執行。支援cron表示式,可以進行分鐘、小時、天、周和月多種排程週期配置。 - 支援多種任務型別
支援SHELL、HadoopShell、Spark、Pig、Hive、MR1、MR2、Sqoop等多種任務型別,通過任務之間的相互依賴完成複雜的資料分析處理。
2. 視覺化開發
- 提供視覺化的程式碼開發、工作流設計器頁面,無需搭配任何開發工具,簡單的拖拽和開發就可以完成複雜的資料分析任務。只要有瀏覽器有網路,便可隨時隨地進行開發工作。
3. 監控告警
- 運維中心提供視覺化的任務監控管理工具,支援以DAG圖的形式展示任務執行時的全域性情況。