數據中臺產品的一些思路
阿新 • • 發佈:2019-05-13
top pin 圖片 alt aud 周期 exce 展示 mem 數據中臺系統的一些思路。
* 引言*
企業借助於大數據/數據湖項目,一般同時需要完善對企業數據的梳理:對企業數據資產數據盤點,完善數據治理相關流程。對內便於數據用戶使用數據。對外滿足部監管對多種數據口徑要求。
基本解決思路**
這類問題的基本解決思路是從元數據管理(包括業務,技術)角度完善數據生命周期管理。這裏的元數據包含:
* 引言*
企業借助於大數據/數據湖項目,一般同時需要完善對企業數據的梳理:對企業數據資產數據盤點,完善數據治理相關流程。對內便於數據用戶使用數據。對外滿足部監管對多種數據口徑要求。
基本解決思路**
這類問題的基本解決思路是從元數據管理(包括業務,技術)角度完善數據生命周期管理。這裏的元數據包含:
- 傳統意義的數據字典 (表單,字段的含有)
- 業務元數據梳理,包括業務指標,統計口徑等 (通常對應 維度數據,業務描述數據code table, mapping table 的梳理)
- 數據 data lineage, audit
* 挑戰及現有問題
這類工具市場上比較多,傳統的數倉產品都有元數據管理工具。但多數存在些問題如:
- 對數據用戶不友好。這裏數據用戶包括a)數據分析人員 b) 數據維護操作人員
- 落地困難:不能很好的融合到企業現有的開發流程中
- 傳統企業有大量遺留系統,這些系統本身的元數據(數據描述)由於歷史原因不太完善。在遺留系統數據集成到大數據/數據湖的過程中,這些元數據需要在項目過程中完善,但缺乏工具,或現有工具不友好。
** 產品化及切入點選擇***
基於以上分析,數據平臺(中臺)產品中元數據管理部分可以采用以下設計思路:
- 借助圖數據庫提升前端數據展示
- 借助NLP及傳統元數據數據管理提升數據關聯關系分析
- 開發定制工具針對遺留系統及項目開發流程元數據進行維護。(進一步解釋以下,在多數數倉,大數據項目中,業務數據分析人員均需準備Mapping 文檔。目前mapping 文檔多以 excel 形式存在,不利於維護,共享,進一步挖掘。可以開發定制在線mapping文檔工具作為一個切入點)
- 參照(邏輯)架構圖:
目前市場上已經用一些類似產品,也可以做個參照:
- http://www.stargraph.cn/ 金融智能 BDP
- https://memect.cn/ 知識圖譜技術
- http://www.primeton.com/ 元數據平臺
- https://www.topquadrant.com/
數據中臺產品的一些思路