1. 程式人生 > >使用Atlas進行元數據管理之Atlas簡介

使用Atlas進行元數據管理之Atlas簡介

res attr 開源 包含 倉庫 過程 rest api 應用 企業

背景:筆者和團隊的小夥伴近期在進行數據治理/元數據管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程中踩過的坑和收獲。

元數據管理系列文章:

[0] - 使用Atlas進行元數據管理之Atlas簡介
[1] - 使用Atlas進行元數據管理之Glossary(術語)
[2] - 使用Atlas進行元數據管理之Type(類型)

0. 當我們談論數據治理/元數據管理的時候,我們究竟在討論什麽?

談到數據治理,自然離不開元數據。元數據(Metadata),用一句話定義就是:描述數據的數據。元數據打通了數據源、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。因此,數據治理的核心就是元數據管理

數據的真正價值在於數據驅動決策,通過數據指導運營。通過數據驅動的方法判斷趨勢,幫住我們發現問題,繼而推動創新或產生新的解決方案。隨著企業數據爆發式增長,數據體量越來越難以估量,我們很難說清楚我們到底擁有哪些數據,這些數據從哪裏來,到哪裏去,發生了什麽變化,應該如何使用它們。因此元數據管理(數據治理)成為企業級數據湖不可或缺的重要組成部分。

可惜很長一段時間內,市面都沒有成熟的數據治理解決方案。直到2015年,Hortonworks終於坐不住了,約了一眾小夥伴公司倡議:咱們開始整個數據治理方案吧。然後,包含數據分類、集中策略引擎、數據血緣、安全和生命周期管理功能的Atlas應運而生。(PS:另一個應用的較多的元數據開源項目是Linkedin 在2016年新開源的項目:WhereHows

)Atlas目前最新的版本為2018年9月18日發布的1.0.0版本。

1. Atlas介紹

Atlas 是一個可伸縮和可擴展的核心基礎治理服務集合 ,使企業能夠有效地和高效地滿足 Hadoop 中的合規性要求,並允許與整個企業數據生態系統的集成。

Apache Atlas為組織提供開放式元數據管理和治理功能,用以構建其數據資產目錄,對這些資產進行分類和管理,並為數據科學家,數據分析師和數據治理團隊提供圍繞這些數據資產的協作功能。
技術分享圖片

2. 特性

2.1 元數據類型 & 實例

  • 各種Hadoop和非Hadoop元數據的預定義類型
  • 能夠為要管理的元數據定義新類型
  • 類型可以具有原始屬性,復雜屬性,對象引用;可以繼承其他類型
  • 類型(type)實例(稱為實體entities)捕獲元數據對象詳細信息及其關系
  • 可以更輕松地進行集成用於處理類型和實例的REST API

2.2 分類

  • 能夠動態創建分類 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE。
  • 分類可以包含屬性 - 例如EXPIRES_ON分類中的expiry_date屬性。
  • 實體(entities)可以與多個分類(classifications)相關聯,從而實現更輕松的發現和安全實施。
  • 通過血緣傳播分類 - 自動確保分類在進行各種處理時遵循數據。

2.3 血緣

  • 直觀的UI,用於在數據流轉時,通過各種流程時查看數據。
  • 用於訪問和更新血緣的REST API。

2.4 搜索/發現

  • 直觀的UI,按類型(type),分類(classification),屬性值(attribute)或自由文本搜索實體。
  • 豐富的REST API,可按復雜條件進行搜索。
  • SQL搜索實體的查詢語言 - 域特定語言(DSL)。

2.5 安全和數據屏蔽

  • 用於元數據訪問的細粒度安全性,實現對實體實例的訪問控制以及添加/更新/刪除分類等操作。
  • 與Apache Ranger集成可根據與Apache Atlas中的實體相關的分類對數據訪問進行授權/數據屏蔽。例如:
    • 誰可以訪問分類為PII,SENSITIVE的數據。
    • 客戶服務用戶只能看到分類為NATIONAL_ID的列的最後4位數字。

使用Atlas進行元數據管理之Atlas簡介