1. 程式人生 > 其它 >資料倉庫(12)資料治理之數倉資料管理實踐心得

資料倉庫(12)資料治理之數倉資料管理實踐心得

這邊文章聊聊自己對資料治理開發實踐的一些思路,就是聊聊怎麼開始去做資料治理這件事情。說起資料治理,有時候雖然看了很多文章,看了很多的介紹,瞭解資料治理的理論,但是實際上需要我們去搞的時候,就會踩很多的坑。這裡記一下自己做資料治理的一些思路,做做筆記,也分享給需要的同學。

當然,想要做資料治理,想要學習瞭解,一下資料治理的範圍,理論等,最好可以看看別人怎麼做的,瞭解資料治理可以參考:資料倉庫(11)什麼是大資料治理,資料治理的範圍是哪些

那接下來就繼續說說資料治理的一些思路心得。

接到資料治理的任務?要怎麼做?

  • 梳理目前資料叢集,以及業務的總體情況

這個,其實沒有什麼好說,做事情之前,肯定是要先了解,我們要做的東西是怎麼樣的,評估可能會遇到的問題,這樣才能進一步做出來好的資料質量方案。

  • 對資料治理進行分類

瞭解了我們面對的資料叢集之後,就要了解對我們需要治理的方向,進行分類了,這個對我們後續的方案設計和元件的選取、改造會有很大的影響,不一樣的分類,我們要解決問題的範圍,是不一樣的。

那要怎麼分類?首先是大的方向。

  1. 主資料管理
  2. 元資料管理
  3. 資料標準
  4. 資料質量管理
  5. 資料安全管理
  6. 資料計算管理
  7. 資料儲存管理

大的方向確定了,當其實還是太大了,還是需要進一步的進行切割。

像是資料質量管理,可以進一步切分為

1 唯一性校驗:不存在無意義的重複資料
2 完整性校驗:資料完整且連續
3 一致性校驗:資料在多資料來源中意義一致
4 有效性校驗:這裡主要指資料在分析的時間點是有效,而非過期或失效資料
5 準確性校驗:資料合理、準確,並符合資料型別的標準

元資料管理,要劃分為技術元資料和業務元資料等,具體的劃分粒度,應該需要到具體的,可實現的,不容易混淆,以及偏於以後資料的管理和使用。畢竟這個東西后續要給開發,給資料bi等人使用的。當然,我們可能不能已下載就劃分好一個最好的分類,我們應該迴圈迭代,做出一個更加符合實際出來。

資料管理這個,如果說技術能力,開發人力有限,那其實往往更加簡單的方式更好,也便於推廣,應該說一個可用的方案好過於一個全面,但用起來不方便的方案。

  • 針對某個類別的資料,進行具體設計,開發,並進一步成規範

上面,我們已經大概梳理好了我們資料治理的範圍和分類,進一步的,我們就需要落地了。這個時候,我們就要進一步的針對,我們的劃分的問題,提出,我們的方案,並實現他。

如果,上面說的資料質量管理中的準確性校驗,這個時候,我們就面臨了一個問題,怎麼樣的資料,符合資料合理、準確,並符合資料型別的標準這樣的資料規範?我們會怎麼去驗證這個東西呢?正常情況下,開發人員是怎麼去驗證這個東西的?

所以,這個時候,我們就需要抽象出這些具體的操作,拼通過合適的方案實現他。

如果,準確性校驗,開發人員一般是通過寫sql,通過一定的資料規則判斷的,比如資料的波動,資料值的範圍等。那麼我們做這個的時候,是不是就可以做這樣的一個系統,可以配置sql,或者一些比較通過的邏輯,定時比對資料,得到我們的一個結果,實現這樣的一個功能?當然這個肯定不是最好的方案,但是一個可用的方案好過於一個全面,但用起來不方便的方案。然後不停的迭代優化,完善。

當然,這個時候也要放過來思考我們上面的劃分是不是,合理,比如資料質量管理,是不是可以使用同一個思路去做?爭取事半功倍。

  • 執行規範

做好上面的事情,接下來,就是考驗執行了的時候了,任何方案在,最終如果不能很好的執行,那就是事倍功半。

囉裡囉唆,寫了這一點點心得,邏輯可能不是很通暢,希望可以給到各個在資料治理掙扎的同學,一點思路,這個也是我的個人筆記,後續有新的想法,再更新。

參考資料:資料倉庫(12)資料治理之數倉資料管理實踐心得