大資料、資料分析、資料探勘
在大資料領域裡,經常會看到例如資料探勘、OLAP、資料分析等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和差別。大講臺老師通過一些大資料在高校應用的例子,來為大家說明白—資料探勘、大資料、OLAP、資料統計的區別。
(一)資料分析
資料分析是一個大的概念,理論上任何對資料進行計算、處理從而得出一些有意義的結論的過程,都叫資料分析。從資料本身的複雜程度、以及對資料進行處理的複雜度和深度來看,可以把資料分析分為以下4個層次:資料統計,OLAP,資料探勘,大資料。
(二)資料統計
資料統計是最基本、最傳統的資料分析,自古有之。是指通過統計學方法對資料進行排序、篩選、運算、統計等處理,從而得出一些有意義的結論。
舉例,對全年級學生按照平均成績從高到低排序,前10%的學生可以獲得申請研究生免試資格。
傳統的查詢和報表工具是告訴你資料庫中有什麼(What happened)
(三)OLAP
聯機分析處理(On-Line Analytical Processing,OLAP)是指基於資料倉庫的線上多維統計分析。它允許使用者線上地從多個維度觀察某個度量值,從而為決策提供支援。
舉例,學校招生時要決定今年在江蘇的招生指標,不能簡單地參照去年的計劃,而是要參考多個維度的資料積累。學校要在這些資料的支援下做出合理的決策。
OLAP更進一步告訴你下一步會怎麼樣(What next),如果我採取這樣的措施又會怎麼樣(What if)
(四)資料探勘
資料探勘是指從海量資料中找到人們未知的、可能有用的、隱藏的規則,可以通過關聯分析、聚類分析、時序分析等各種演算法發現一些無法通過觀察圖表得出的深層次原因。
舉例,學校發現高等數學等主幹課的不及格率有逐年上升的趨勢,一般認為是學習不認真所致,但做了很多工作效果並不明縣,這時通過資料探勘……
針對此可以採取有針對性的管理措施。
(五)大資料
大資料是指用現有的計算機軟硬體設施難以採集、儲存、管理、分析和使用的超大規模的資料集。大資料具有規模大、種類雜、快速化、價值密度低等特點(4V特性)。大資料的“大”是一個相對概念,沒有具體標準,如果一定要給一個標準,那麼10-100TB通常稱為大資料的門檻。
總結:
從資料分析的角度來看,目前絕大多數學校的資料應用產品都還處在資料統計和報表分析的階段,能夠實現有效的OLAP分析與資料探勘的還很少,而能夠達到大資料應用階段的非常少,至少還沒有用過有效的大資料集。
我們不需要糾結所謂的“專業名詞”,作為一個資料分析師,我們的目標是幫助業務更好的發展、減少決策的風險、提取重要的資訊,所以業務的套路和理解才是我們的立足之本,資料分析畢竟是我們達成某種目標的工具,療效才是對我們更深層次的驗證。