解讀|資料分析的發展和演變經過哪幾個階段
作者: Deepesh Nair
編譯: Mika
CDA 資料分析師原創作品,轉載需授權
近年來,我們在資訊科技領域取得了巨大進步。在技術生態領域中取得的一系列革命性成果確實值得稱讚。在過去的十年到二十年裡,資料和分析一直是非常熱門的詞彙。因此我們需要明確它們是如何相互關聯的,市場中扮演什麼角色,以及將如何重塑商業業務。
科技,對於那些已經意識到其潛力的人群來說這是一種福音,然而對於那些無法跟上其快速發展的人群來說,這也是一種考驗。到目前為止,幾乎每個行業都離不開資料分析。
在本文中將總結近年來資料分析的發展和演變,簡化各種術語,對一些常見應用場景進行解釋。讓我們開始吧!
資料分析1.0 → 商業智慧需求
這是資料倉庫的興起時期,客戶(業務)和生產過程(交易)被集中到巨大的儲存庫中,如eCDW(企業整合資料倉庫)。在對商業現象的客觀理解方面取得了真正的進展, 從而讓管理者在做出決策時能夠基於對事實的理解,而不是僅憑直覺。
這個階段中資料通過ETL和BI工具收集、轉換和查詢。分析型別主要分為描述性(發生了什麼)和診斷性(為什麼會這樣)。
然而,這個階段的侷限在於資料僅在公司企業內部使用,即商業智慧活動只能處理過去發生的事情,而不能對未來趨勢進行預測。
資料分析 2.0 →大資料
隨著各大企業都紛紛走出舒適區,試圖用更廣泛的方法進行更復雜的分析時,前一階段的資料分析侷限性變得更加突出。
企業都開始通過外部資源獲取資訊,比如點選流、社交媒體、網際網路等,與此同時對新工具的需求也越發明顯。不可避免地,“大資料”一詞出現了,為了區分那些純粹來自公司內部系統的小資料。
在這個階段,公司希望員工能夠通過快速處理引擎幫助處理大量資料。他們沒預想到的是,因此應運而生的新興的群體,即如今所稱的“開源社群”將產生巨大的影響力,這也是資料分析 2.0時代的標誌。
在社群前所未有的支援下,大資料工程師,Hadoop管理員等角色在就業領域發展壯大,並且對對每個IT企業都至關重要。科技公司急於開發新的框架,這些框架不僅能夠收集、轉化處理大資料,而且還能在整合預測性分析。而且,進一步通過描述性和診斷分析的結果檢測趨勢、聚類和異常,並預測未來趨勢,這也使其成為重要的預測工具。
在今天的技術生態系統中,我個人認為“大資料”這個術語已經被大量使用,甚至濫用,從技術上講,如今“大資料”指的是所有資料,或者只是指資料。
資料分析 3.0→功能強大的資料產品
開創性的大資料公司開始投資資料分析,從而支援面向客戶的產品,服務和功能。它們通過更好的搜尋演算法、購買建議以及針對性廣告吸引使用者訪問其網站,所有這些都是由資料分析所驅動的。大資料現象迅速蔓延,如今不僅是科技公司在通過資料分析開發產品和服務,幾乎每個行業的公司都是如此。
另一方面,大資料技術的普及帶來了好壞參半的影響。在科技巨頭收穫大量利潤取得成功的同時,大多數企業和非科技公司卻因為忽略資料而失敗慘重。因此,資料科學領域應運而生,該領域使用科學方法、探索過程、演算法等從各種形式的資料中獲得知識和分析見解。
實際上,資料科學領域是跨學科的,它被定義為“結合統計、資料分析、機器學習等相關方法的概念”,從而用資料“理解和分析實際現象”。換句話說,良好的資料加上出色的訓練模型能夠產生更好的預測結果。新一代的量化分析師被稱為資料科學家,他們擁有計算和資料分析技能。
科技行業在資料科學的幫助下迅速發展,並充分利用預測性和規範性對未來趨勢進行預測。企業間也開啟了資料分析的競爭方面,公司不僅通過改善內部決策等傳統方式,而且還在不斷開發更有價值的產品和服務。這是資料分析 3.0時期的精髓。
如今資料分析產生了巨大轉變。公司正以超乎想象的速度發展,在內部設立更多的研發部門,比如資料科學家、資料工程師、解決方案架構師、首席分析師等人員構成的資料分析團隊。
資料分析 4.0 → 自動化功能
有四種分析型別:描述,闡述過去; 診斷,利用過去的資料研究現在; 預測,通過基於過去資料的見解來預測未來; 規範,通過模型指導最佳行為。雖然資料分析3.0包含了上述所有型別,但它強調的是最後一種,並且引入了小規模自動化分析的概念。
資料分析3.0提供了將決策流程擴充套件到行業中的機會。通過機器學習建立更多模型,從而讓預測變得更加細化和精確。但是,部署這類定製模型的成本和時間是十分昂貴的。最終,通過智慧系統實現自動化的資料分析4.0時代到來了。
毫無疑問,人工智慧、機器學習、深度學習將帶來深刻的影響。機器翻譯、智慧回覆、聊天機器人、會議助理等功能將在未來幾年內得到廣泛應用。資料探勘技術、機器學習演算法都已取得了大量成果,自動化分析將成為資料分析的新階段。
資料分析 5.0 → 接下來會是什麼
我們可以將自動化理解為,人與智慧機器的強強聯合,從而實現更好的成果。
與其思考“人類的哪些工作將被機器取代?”我寧願樂觀地考慮,在機器的幫助下,企業能取得哪些新成就?我們該如何在災難易發地區,通過人工智恩程式減少傷亡人數;或者如何在貧困地區建立人工智慧驅動的電子學校等。
我對資料分析的發展充滿自信,問題在於我們能否積極地接受該技術帶來的影響。