資料倉庫系列之關於資料倉庫自動化技術
目前市面上的BI工具都在提及敏捷BI解決方案。敏捷BI解決方案所提供的自動化技術支援主要是從資料來源取數到BI前端工具展現。這樣的敏捷BI解決方案在企業資料量不是很龐大的情況下,還是很好的支撐執行。PowerBI可以支援大量的資料處理,但是對於硬體裝置的要求也是非常高的。但是資料量變得越來越龐大就會導致BI報表出現執行緩慢,大屏展現出現資料延遲等等現象。
如果專案較小例如上圖中的動態銷售報告,只是為了展現EXCEL中少量的資料。使用PowerBI工具完全可以滿足大家的需要。真正要做到敏捷BI整體數倉解決方案,還是需要在資料來源和BI前端工具的中間加入資料倉庫。在資料倉庫中處理資料對於源資料沒有任何侵入性,也不會對源資料系統造成影響。資料倉庫的搭建可能大家用過SSDT工具應該知道,搭建資料倉庫還是很繁瑣的。搭建資料倉庫還是需要藉助資料倉庫自動化工具。
資料倉庫自動化的工具正變得越來越主流,現在他們明顯的好處:
1、 快速交付
2、 開發成本較低
3、 開發週期短對於一個商業智慧專案完成,不再需要等待三至六個月。
4、 維護成本低,無需投入大量的技術人員維護
市面上已經有的ETL工具具有自動化技術,我在前面的ETL過程和ETL工具介紹已經提及了,這裡就不再做過多的描述。有一些事情你應該知道,評估來自不同供應商的產品的維度。
一、有些工具資料倉庫的自動化程度較低。
一些資料倉庫自動化工具就存在不能夠自動化處理模型,大多數開發商在做示例都是使用一個簡單的星型模式報告。這是一個簡單的資料來源,但是當你需要將資料從多個數據源整合,事情就變得複雜了。有些工具帶你通過一個錯綜複雜的過程,升級到資料生成星型模式之前結合。這是不是很自動化。資料倉庫的自動化工具應該可以處理70%的工作,而不需要額外的資料建模工作或ETL程式設計。除非客戶存在定製化的需求,再進行建模和程式設計。
二、一些工具需要大量的諮詢工作實現結果。
問問你的資料倉庫的自動化軟體供應商的這個簡單的問題: “你們實施BI專案有多少實施顧問,實施需要的週期?”一個健全的實施BI專案的團隊,如果已經做到了工具大部分自動化處理。實際具有成熟自動化技術的供應商,他們更多的是在做客戶報表指標的梳理,適配公司模型庫中的指標資料。更多的工作是在前期的需求調研確認模型階段,實施部署BI專案實際是非常快速的。
三、雪花模型和星形模型
如果您正計劃建立自己的資料倉庫,那麼你所選擇的資料倉庫自動化工具應該自動執行任何上述的部分或全部。一些資料倉庫的自動化工具仍需要您手動設計目標模型,並用自己的工具來填充它。這不是自動化,你還不如回去使用ETL工具。一個好的資料倉庫自動化工具將自動完成了模型設計和填充它的程式碼 。讓你在雪花模型和星型模形之間進行選擇。
四、目標資料庫的資料倉庫。
許多資料倉庫的自動化工具限制你只是一個目標資料庫平臺,而其他人將讓你在更多的建立資料倉庫。你可能希望,在未來,移動到不同的資料庫平臺(例如,從SQL Server到Oracle,或從SQL Server到SQL Server其他版本),所以你可能需要一個數據倉庫的自動化工具,它為您提供了將來的遷移選項。
五、排程依賴
對於任何資料倉庫專案,需要資料在特定的時間,並在一定的順序進行裝載。例如,當來自多個來源的資料相結合,你可能需要有所有載入之前,首先你可以開始建立你表中的資料,而且他們必須更新之前,您可以更新您的星型模型的報告。一個企業級的資料倉庫的自動化工具將瞭解這些依賴關係,自動執行並自動完成所有必要的流程和正確的順序執行它們。
六、資料倉庫自動化工具的功能
資料倉庫自動化工具主要包括系統管理、業務匯流排管理、維度模型管理、作業管理、應用管理、元資料管理、資料標準管理和行業指標庫等模組。 個人認為真正健全軟體應該具備上圖的功能特點或者實現維度建模工具箱中提及的34個子系統。
系統管理:這個模組主要管理各個系統的資訊包括源系統資訊、資料倉庫系統、作業排程系統、報表瀏覽系統。通過源系統資訊可以自動匯入源系統的元資料,為維度建模和檢查資料結構變化提供資料。
業務匯流排管理:每個源系統都有多個業務過程,每個業務過程都會涉及多個維度實體。業務過程和維度實體組成匯流排結構,統一管理每個源系統的業務匯流排。
維度模型管理:根據命名規範進行物理模型和對映關係設計,保證命名的統一。可以自動生成建表指令碼,自動在資料倉庫執行指令碼。
作業管理:根據查詢指令碼和程式模板自動生成ETL程式,自動生成作業的依賴關係。保證程式程式碼的統一,規範。
應用管理:統一管理報表、介面業務元資料資訊。
資料標準管理:統一管理程式碼命名規範、資料型別對映關係、常用單詞庫、指標定義、ETL程式模板。
元資料管理:在開發的過程中,會儲存各種元資料資訊,可以根據這些元資料進行程式碼規範檢查、資料影響分析、資料異常監控。
專案文件管理:可以在BI專案實施時進行自動生成資料處理過程的備註資訊,可以詳細描述知道欄位的轉換,抽取規則等等
行業指標庫:通過公司積累的行業資料指標進行適配客戶資料,實現低成本敏捷交付BI專案。
七、總結
ETL工具引入了很多時間的延誤和風險到您的商業智慧專案。更糟的是,他們期待您的業務使用者能夠學習掌握資料倉庫中的表和欄位,真正業務使用者時不理解資料倉庫的,所以不可避免的變化將要花費很長的時間來解決。真正可以讓業務使用者理解的只有業務術語,利用語義模型才是解決該類問題的最好方法。你能用敏捷的ETL工具,來完成模型的設計。如果您估計傳統的資料倉庫專案,需要半年,同樣的專案在具有良好和高度配置化的資料倉庫自動化工具來完成只需要幾個星期處理好。時間對於任何公司和個體都是十分重要的,所以選型資料倉庫工具也是需要非常謹慎小