1. 程式人生 > >大數據的五大誤區及其破解之道

大數據的五大誤區及其破解之道

原則 庫存 詞匯 組件 毫無 做出 技術 image 格式

些人認為,“大數據”這一詞匯不過是企業營銷時的大肆炒作。但即使是那些接受大數據概念的人,也需要消除某些大數據誤區。

全球領先的信息技術研究和咨詢公司Gartner指出,大肆宣傳大數據概念,使企業在選擇適當的行動方案時,受到更多困擾,但對消除一些仍存在的誤區卻毫無幫助。

例如,80%的數據是非結構化的,這是錯誤的;又如高級分析功能只是更復雜形式的普通分析,分析公司Gartner指出,這也是不正確的。

Gartner公司在已發布的兩篇報告《大數據對分析功能影響中的主要誤區》和《大數據對信息基礎設施影響中的主要誤區》中,集中探討大數據對分析功能及信息基礎設施影響中的相關誤區,希望展示大數據相關的更多真實情況。以下摘取大數據概念的五大誤區。

誤區一:在大數據技術部署中,其他人都領先我們
雖然越來越多的企業開始關註大數據技術和服務,Gartner公司測算結果顯示,73%的企業正在投入或策劃大數據技術,但大多數企業才剛剛開始接受這一技術。

因此,擔心競爭對手運用大數據技術快速發展實在是杞人憂天。實際上,只有13%的受訪企業真正開始部署大數據相關技術。

技術分享

Gartner公司表示:“企業面臨的最大挑戰是怎樣通過大數據獲得價值以及怎樣入手部署大數據技術。大多數企業在試點階段就遇到困難,因為他們並沒有在業務過程或實際用例中運用該技術。”

Gartner公司的結論是:你並沒有落後。為實際的任務制定策略,並與IT及業務部門合作。

誤區二:數據量很大,而小缺陷無關緊要
有人認為,根據大數定律(Law of Large Numbers),獨立的數據缺陷無關緊要,不會影響分析結果。

與更小規模的數據集相比,獨立的數據缺陷對整個數據集的影響的確要小很多,但目前,數據量不斷增長,數據缺陷與以往相比也越來越多。

Gartner公司表示:“因此,低質量數據對整個數據集的整體影響仍保持不變。此外,企業在大數據環境下使用的大部分數據來自外部數據源,其數據結構和來源未知。”

“這意味著數據質量問題的風險比以往更高。因此,在大數據部署中,數據質量實際上更加重要。”

Gartner公司的結論是:設計出新的數據質量管理方式,並選擇數據質量級別。嚴格遵守數據質量保障的核心原則。

誤區三:大數據將取代數據整合能力
企業希望通過讀時模式(Schema on Read)處理信息,使用多個數據模型靈活地讀取同一個數據源。這種靈活性將幫助最終用戶決定怎樣按需解釋任意數據信息,並實現個體用戶數據訪問的定制化能力。然而,大多數用戶實際上使用寫時模式(Schema on Write)。寫時模式下用戶可描述數據並制定內容,而數據完整性也能保持一致。

誤區四:將數據倉庫用於高級分析是毫無意義的
有些人認為,高級分析功能可使用新的數據類型時,部署數據倉庫則浪費時間。實際上,大多數高級分析項目在分析時都使用數據倉庫。

新的數據類型還可能需要提煉,使其適於數據分析。此外,哪些是相關數據、怎樣聚合數據以及必要的數據質量級別等都需要企業做出決策。

Gartner公司的結論是:盡可能使用數據倉庫存儲經人工收集檢查的數據集,用於高級分析功能。

誤區五:數據湖將取代數據倉庫
數據湖解決方案通常被當作企業級平臺銷售,用於分析原生格式下的各種不同的數據源。但Gartner公司認為,數據湖取代數據倉庫,或作為分析基礎設施中的重要組件是錯誤的觀點。

與已經成型的數據倉庫技術相比,數據湖技術尚未成熟,其功能不夠全面。“數據倉庫已具備支持多種用戶群體的能力。”因此,企業無需等待數據湖技術的成熟。

Gartner公司的結論是:在現有數據倉庫中運用Hadoop等數據湖技術。只有在元數據管理技術、工具及培訓上投入,才能通過數據湖技術創造業務價值。

原文鏈接

大數據的五大誤區及其破解之道