傳統典型資料倉庫體系結構
阿新 • • 發佈:2019-01-05
作為一個數據倉庫系統,從資料來源(一般為業務系統或其它外購資料)到最終展現給終端使用者,中間需要經過一系列過程:
- 抽取適當的資料來源資料。資料倉庫不是簡單的生產系統的業務資料的堆積,簡單地將生產系統的資料進行堆積的結果將會建成一個數據垃圾堆而不是資料倉庫。我們只要選取對現在和將來決策分析有用的業務資料進行積累就可以了。
- 轉化、清洗、重構等資料加工過程。因為資料倉庫中的資料是面向分析和決策的,必須將業務資料進行重組才能達到這個目的。資料倉庫中的資料結構往往與業務系統中的資料結構是有非常大差異的。
- 建立海量、高效的企業級資料倉庫。這個資料倉庫必須能夠在海量資料基礎上服務於大量併發使用者,並且無論是資料處理速度還是查詢速度都應該滿足一定的速度要求。依靠資料倉庫應該能夠完成設計範圍內的一切分析。
- 針對特定的分析主題,建立專門的資料集市。僅僅依靠資料倉庫進行分析,其速度往往不足夠快。為了使某些常用分析的速度足夠快,有必要為這些分析問題分別單獨進行進一步的資料重組和優化,即建立資料集市以加快分析速度。
- 針對特定業務問題,使用特殊的數理統計演算法進行資料探勘。資料探勘技術以建立在概率論和數理統計基礎之上。特定的資料探勘演算法需要特定格式的資料輸入,這種特定的格式往往不是資料倉庫中直接具有的,需要大量的資料加工準備過程。模型挖掘、模型驗證等過程也是一個需要反覆進行的過程。另外,挖掘的結果--模型,必須作用到樣本上--在樣本上打分--才能真正發揮作用。
- 元資料管理--整個資料倉庫的所有描述性資訊、管理資訊、排程資訊等都是資料倉庫的元資料。一個數據倉庫要想得到很好的持續性建設和被很好地使用,元資料管理是必不可少的。
- 前端展現應用--終端使用者的介面,這個介面必須簡單易用且功能強大,必須具有良好的許可權控制;兩外,前端展現應用必須維護簡單。