1. 程式人生 > >小孩子,小問題;大孩子,大問題

小孩子,小問題;大孩子,大問題

最近,我曾和一個同事聊起子女的話題,對於在子女培養過程中所面臨的各種挑戰,我們彼此分享了各自的一些故事。同事正處在子女培養的起步階段,他的孩子一個一歲,一個三歲,而我則接近孩子培養的最後階段(當然,我希望是這樣),我的子女都已經長大成人,分別是18歲和21歲。在我們討論的過程中,我想起一句話“小孩子,小問題;大孩子,大問題”,同時回想起在子女成長過程中我們所採取的不同教育方式。彼此交流引發了我的思考:這是不是類似於小規模資料質量和大規模資料質量的問題?對於這兩種情況,我們是不是需要不同的處理方法?

隨著大資料專案變得越來越普遍,這些專案對越來越多的企業也產生了越來越大的影響。同子女培養一樣,資料量越大,資料質量問題帶來的影響也越大。對於100萬條資料記錄而言,1%的錯誤相當於有1萬條壞記錄;然而,對於10億條資料記錄而言,1%的錯誤就相當於有1000萬條壞記錄。那真是一場災難!

大資料的質量問題表現為很多種方式:

信心被侵蝕——資料的準確性會受到質疑,使用者將不再願意使用那些依賴大資料環境輸出結果的系統,直到他們打消對資料質量的疑慮;

效率低下問題增多——重複工作和資料返工意味著用於假設驗證、洞察力獲取和創新的時間會變少;

有缺陷的決策——錯誤決策不僅會影響企業的未來,還會對個體層面造成負面影響,例如:基於壞資料進行的醫療決策,以及操控道路上無人駕駛汽車等情況。

重新回到我的問題上,就像培養小孩子和大孩子一樣,對於大資料質量問題,我們是否需要一種不同的方法呢?答案是肯定的。與“小規模資料”不同,進入你的大資料環境的資料,其規模、複雜度和速度所呈現的數量級使對這些資料進行全面清洗,只能是不切實際的幻想,而且回報也是微不足道的。因此,企業可以採取的大資料質量處理方法包括:

決定需要清洗哪些資料——無需對那些快要失去意義的資料要素進行清洗,也無需對那些你認為足夠好並能準確反映一般趨勢的資料進行清洗;

實現過程自動化——為業務使用者和資料科學家提供預先設定的資料質量規則,並應用可能的人工智慧技術,使他們可以理解資料的特性,識別問題,並採取補救措施;

實現標準化和複用——部署資料治理服務,進而集中管理通用的資料質量規則,對特定的資料域進行優化,並在整個企業內共享;

持續監控——隨著新資料的流入,你需要對資料質量進行剖面分析和度量,讓業務和IT人員能夠清楚地瞭解任何趨勢問題,從而使他們可以做出有針對性的響應。

對於大資料環境中的資料質量問題,採取合適的處理方法可確保資料能夠滿足其所在的使用場景對質量等級的要求。正如在培養大孩子時必須採取正確處理方法一樣,你需要相信他們在生活中做出的選擇和決定。

 

本文作者:Informatica銷售與市場運營部Donal DunneDonal Dunne曾在創業公司和財富500強企業工作多年,在軟體銷售、銷售運營與市場營銷行業擁有20餘年的豐富經驗。

 

有關Informatica的更多資訊,請掃描如下二維碼,關注Informatica官方微信:Informatica資料管理。