1. 程式人生 > >數據中臺產品的一些思路

數據中臺產品的一些思路

top pin 圖片 alt aud 周期 exce 展示 mem

數據中臺系統的一些思路。
* 引言*
企業借助於大數據/數據湖項目,一般同時需要完善對企業數據的梳理:對企業數據資產數據盤點,完善數據治理相關流程。對內便於數據用戶使用數據。對外滿足部監管對多種數據口徑要求。
基本解決思路**
這類問題的基本解決思路是從元數據管理(包括業務,技術)角度完善數據生命周期管理。這裏的元數據包含:

  • 傳統意義的數據字典 (表單,字段的含有)
  • 業務元數據梳理,包括業務指標,統計口徑等 (通常對應 維度數據,業務描述數據code table, mapping table 的梳理)
  • 數據 data lineage, audit

* 挑戰及現有問題
這類工具市場上比較多,傳統的數倉產品都有元數據管理工具。但多數存在些問題如:

  • 對數據用戶不友好。這裏數據用戶包括a)數據分析人員 b) 數據維護操作人員
  • 落地困難:不能很好的融合到企業現有的開發流程中
  • 傳統企業有大量遺留系統,這些系統本身的元數據(數據描述)由於歷史原因不太完善。在遺留系統數據集成到大數據/數據湖的過程中,這些元數據需要在項目過程中完善,但缺乏工具,或現有工具不友好。

** 產品化及切入點選擇***
基於以上分析,數據平臺(中臺)產品中元數據管理部分可以采用以下設計思路:

  • 借助圖數據庫提升前端數據展示
  • 借助NLP及傳統元數據數據管理提升數據關聯關系分析
  • 開發定制工具針對遺留系統及項目開發流程元數據進行維護。(進一步解釋以下,在多數數倉,大數據項目中,業務數據分析人員均需準備Mapping 文檔。目前mapping 文檔多以 excel 形式存在,不利於維護,共享,進一步挖掘。可以開發定制在線mapping文檔工具作為一個切入點)
  • 參照(邏輯)架構圖:

技術分享圖片

目前市場上已經用一些類似產品,也可以做個參照:

  • http://www.stargraph.cn/ 金融智能 BDP
  • https://memect.cn/ 知識圖譜技術
  • http://www.primeton.com/ 元數據平臺
  • https://www.topquadrant.com/

數據中臺產品的一些思路