1. 程式人生 > >“數據治理那點事”系列之一:那些年我們一起踩過的坑

“數據治理那點事”系列之一:那些年我們一起踩過的坑

分享 加工 可視化 原則 流程 自動化 影響 發揮 業務

這是一個系列文章,沈澱了我在數據治理領域的一些實踐和思考。共分為5篇:

· 數據治理:那些年,我們一起踩過的坑

主要講講數據治理工作中常見的一些誤區。

· 要打仗你手裏先得有張地圖:元數據管理

這一篇講講元數據的概念和具體應用場景。

· 不忘初心方得始終:數據質量管理

本篇講述如何科學地進行數據質量管理。

· 書同文車同軌:數據標準管理

數據標準的落地始終是難題。本篇希望能提供一些數據標準建設的思路。

· 大數據的淘金之旅:數據資產管理

怎麽管理和應用好這些數據資產,是現今數據治理的重要研究課題。

大數據時代,數據成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用不敢用,因此,數據治理是大數據時代我們用好海量數據的必然選擇。

但大家都知道,數據治理是一項長期而繁雜的工作,可以說是大數據領域中的臟活累活,很多時候數據治理廠商做了很多工作,客戶卻認為沒有看到什麽成果。大部分數據治理咨詢項目都能交上一份讓客戶足夠滿意的答卷,但是當把咨詢成果落地到實處的時候,因為種種原因,很可能是另一番截然不同的風景。如何避免這種情況發生,是每一個做數據治理的企業都值得深思的問題。

筆者涉獵大數據治理領域有6年多的時間,負責過政府、軍工、航空、大中型制造企業的數據治理項目。在實踐當中有過成功的經驗,當然也經歷過很多失敗的教訓,在這些過程中,我一直在思考大數據治理究竟是在治理什麽?要達到什麽樣的合理目標?中間應該怎麽避免走一些彎路?今天就借這個機會跟各位分享一下我曾經趟過的坑,希望對大家有一些借鑒意義。

誤區一:客戶需求不明確

客戶既然請廠商來幫助自己做數據治理,必定是看到了自己的數據存在種種問題。但是做什麽,怎麽做,做多大的範圍,先做什麽後做什麽,達到什麽樣的目標,業務部門、技術部門、廠商之間如何配合做······很多客戶其實並沒有想清楚自已真正想解決的問題。數據治理,難在找到一個切入點。

誤區二:數據治理是技術部門的事

數據問題產生的原因,往往是業務>技術,如:數據來源渠道多,責任不明確,導致同一份數據在不同的信息系統有不同的表述;業務需求不清晰,數據填報不規範或缺失,等等。很多表面上的技術問題,如ETL過程中某代號變更導致數據加工出錯,影響報表中的數據正確性等,在本質上其實還是業務管理的不規範。

我在與很多客戶做數據治理交流的時候,發現大部分客戶認識不到數據質量問題發生的根本原因,只想從技術維度單方面來解決數據問題,這樣的思維方式導致客戶在規劃數據治理的時候,根本沒有考慮到建立一個涵蓋技術組、業務組的強有力的組織架構和能有效執行的制度流程,導致效果大打折扣。

誤區三:大而全的數據治理

出於投資回報的考慮,客戶往往傾向於做一個覆蓋全業務和技術域的、大而全的數據治理項目。從數據的產生,到加工、應用、銷毀,數據的整個生命周期他們希望都能管到。從業務系統,到數據中心,到數據應用,裏面的每個數據他們希望都能被納入到數據治理的範圍中來。

但殊不知廣義上的數據治理是一個很大的概念,包括很多內容,想在一個項目裏就做完通常是不可能的,而是需要分期分批地實施,所以廠商如果屈從於客戶的這種想法,很容易導致最後哪個也做不好,用不起來。所以,我們需要引導客戶,遵循2/8原則——80%的問題產生於20%的系統和數據——從最核心的系統、最重要的數據、最容易產生問題的地方開始著手做數據治理。

誤區四:工具是萬能的

很多客戶都認為,數據治理就是花一些錢,買一些工具,認為工具就是一個過濾器,過濾器做好了,數據從中間一過,就沒問題了。結果是:一方面功能越做越多,另一方面實際上線後,功能復雜,用戶不願意用。

其實上面的想法是一種簡單化的思維,數據治理本身包含很多的內容——組織架構、制度流程、成熟工具、現場實施和運維——這四項缺一不可,工具只是其中一部分內容。大家在做數據治理最容易忽視的就是組織架構和人員配置,但實際上所有的活動流程、制度規範都需要人來執行、落實和推動,沒有對人員的安排,後續工作很難得到保障。建議大家在做數據治理的時候將組織架構放在第一位,有組織的存在,就會有人去思考這方面的工作,怎麽去推動,持續把事情做好,以人為中心的數據治理工作,才更容易推廣落地。

誤區五:數據標準難落地

很多客戶一說到數據治理,馬上就說我們有很多數據標準,但是這些標準卻統統沒有落地,因此,我們要先做數據標準的落地。數據標準真正落地了,數據質量自然就好了。

但這種說法其實混淆了數據標準和數據標準化。首先要明白一個道理:數據標準是一定要做的,但是數據標準化,也就是數據標準的落地,則需要分情況實施。後續會有一篇專門的文章,來討論數據標準和標準化工作。

誤區六:數據質量問題找出來了,然後呢?

辛辛苦苦建立起來平臺,業務和技術人員通力合作,配置好了數據質量的檢核規則,也找出來了一大堆的數據質量問題,然後呢?半年之後,一年之後,同樣的數據質量問題依舊存在。

發生這種問題的根源在於沒有形成數據質量問責的閉環。要做到數據質量問題的問責,首先需要做到數據質量問題的定責。定責的基本原則是:誰生產,誰負責。數據是從誰那裏出來的,誰負責處理數據質量問題。定責之後是問責,問責之後是整改和反饋,然後是質量問題的新一輪評估,直至形成績效考核和排名。只有形成這種工作閉環,才能真正提升數據質量。

誤區七:你們好像什麽也沒做?

很多數據治理的項目難驗收,客戶往往有疑問:你們做數據治理究竟幹了些啥?看你們匯報說幹了一大堆事情,我們怎麽什麽都看不到?發生這種情況,原因往往有前面誤區一所說的客戶需求不明確,誤區三所說的做了大而全的數據治理而難以收尾等,但還有一個原因不容忽視,那就是沒有讓客戶感知到數據治理的成果,可以在成果的可視化呈現,以及平常與客戶的溝通、培訓、知識轉移等過程中,就數據治理的重要性、發揮的價值等方面對客戶進行潛移默化的影響。

總·結

在激烈的市場競爭下,大數據廠商提出來數據治理的各種理念,有的提出覆蓋數據全生命周期的數據治理,有的提出以用戶為中心的自服務化數據治理,有的提出減少人工幹預、節省成本的基於人工智能的自動化數據治理,在面對這些概念的時候,我們一方面要對數據現狀有清晰的認識,對數據治理的目標有明確的訴求,另一方面還要知道數據治理中各種常見的誤區,跨越這些陷阱,才能把數據治理工作真正落到實處,項目取得成效,做到數據更準確,數據更好取,數據更好用,真正地用數據提升業務水平。

作者簡介:蔣珍波, 6年+大數據治理經驗,擅長為客戶提供科學合理的數據治理解決方案。曾先後供職於東南融通、軟通動力、普元信息等公司,負責過數據倉庫建設、BI、大數據平臺、數據治理等售前咨詢等工作,有政府、電力、制造業等行業經驗。目前在數瀾科技擔任大數據平臺售前咨詢工作。

關於數瀾科技

數瀾科技是一家專註於企業數據資產化及應用增值的專業大數據服務公司,致力於將領先的大數據理念和實踐經驗傳遞給各領域企業和政府客戶,幫助企業和政府將數據轉化成生產資料,並借助雲計算和算法賦能,最終實現企業生產力和政府治理能力的快速提升。

自2016年6月成立至今,數瀾團隊踐行大數據“連接”、“不確定性”和“場景化”的三大核心理念,目前已為近超過1000家企業和政府用戶提供大數據相關服務,旗下核心產品數棲平臺作為國內領先的一站式大數據資產化及應用平臺,助力地產、零售、政企、金融、汽車等多領域客戶取得卓越的數據業務效果。秉承著“致力於企業數據資產化及應用增值”,共建大數據生態服務的願景,數瀾科技將堅持與各數據消費方、數據開發方和數據提供方等專業生態夥伴共同攜手,共迎大數據應用的美好未來。

“數據治理那點事”系列之一:那些年我們一起踩過的坑