大資料是什麼?大資料可以做什麼?大資料實際做了什麼要怎麼做?
我自己是一名從事了5年大資料探勘、分析開發的工程師,我花了一個月整理了一份最適合小白學習的大資料乾貨,包括資料採集。資料儲存和管理。資料處理和分析。資料隱私和安全。雲安全,雲技術,人工智慧等資料都有整理,送給每一位大資料小夥伴,這裡是大資料學習者聚集地,歡迎初學和進階中的小夥伴。
加QQ群:591305687(招募中)
“大資料”一詞時下的熱門程度無需贅言,這一兩年來網際網路相關的任何活動、會議必不可少“大資料”板塊。
對於任何一個大資料的從業者或初接觸者,或許都會有個共同的感觸:大資料很有用!大資料該怎麼用?
關於大資料的著作和文章鋪天蓋地,似乎也共同在傳遞一個資訊:越來越多的行業、人士開始關注並實際探索大資料的應用,我們正在一起描繪著大資料巨大效用的藍圖,但在實踐的路上,我們都還在起步階段小步前行。
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴
大資料根基於網際網路,資料倉庫、資料探勘、雲端計算等網際網路技術的發展為大資料的應用奠定了基礎。然而實踐應用尚處於在探索中前進。同樣作為探索學習,我想從我個人的理解角度,分享並與大家探討四個問題:大資料是什麼?大資料可以做什麼?大資料實際做了什麼?大資料要怎麼做?
首先,大資料是什麼?
引用3個比較常用的大資料定義:
(1)需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
—— Gartner
(2)海量的資料規模(Volume)、快速的資料流轉和動態的資料體系(Velocity)、多樣的資料型別(Variety)、巨大的資料價值(Value)。
—— IDC
(3)或稱巨量資料、海量資料、大資料,指所涉及的資料量規模巨大到無法通過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。
—— Wiki
其他關於大資料的定義也大抵類似,我們可以用幾個關鍵詞對大資料做一個界定。
首先,“規模大”,這種規模可以從兩個維度來衡量,一是從時間序列累積大量的資料,二是在深度上更加細化的資料。
其次,“多樣化”,可以是不同的資料格式,如文字、圖片、視訊等,可以是不同的資料類別,如人口資料,經濟資料等,還可以有不同的資料來源,如網際網路、感測器等。
第三,“動態化”。資料是不停地變化的,可以隨著時間快速增加大量資料,也可以是在空間上不斷移動變化的資料。
這三個關鍵詞對大資料從形象上做了界定。
但還需要一個關鍵能力,就是“處理速度快”。如果這麼大規模、多樣化又動態變化的資料有了,但需要很長的時間去處理分析,那不叫大資料。從另一個角度,要實現這些資料快速處理,靠人工肯定是沒辦法實現的,因此,需要藉助於機器實現。
最終,我們藉助機器,通過對這些資料進行快速的處理分析,獲取想要的資訊或者應用的整套體系,才能稱為大資料。
我們可以用下面的圖示給大資料定義:
對大資料概念有了界定後,那大資料可以做什麼呢?
想要應用大資料,從流程上來說,大概是這樣。
首先我們要有資料來源,然後對資料進行收集和儲存,在這基礎上,再進行分析和應用,形成我們的產品和服務,而產品和服務也會產生新的資料,這些新資料會迴圈進入我們的流程中。
在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴
當這整個迴圈體系成為一個智慧化的體系,通過機器可以實現自動化,那也許就會成為一種新的模式,不管是商業的,或者是其他。
然後具體到實際的應用中,我認為,大資料能夠實現的應用,可以概括為兩個方向,一是精準化定製,二是預測。
首先,精準化定製。
主要是針對供需兩方的,獲取需方的個性化需求,幫助供方定準定位目標,然後依據需求提供產品,最終實現供需雙方的最佳匹配。
具體應用舉例,也可以歸納為三類。
一是個性化產品,比如智慧化的搜尋引擎,搜尋同樣的內容,每個人的結果都不同。或者是一些定製化的新聞服務,或者是網遊等。
第二種是精準營銷,現在已經比較常見的網際網路營銷,百度的推廣,淘寶的網頁推廣等,或者是基於地理位置的資訊推送,當我到達某個地方,會自動推送周邊的消費設施等。
第三種是選址定位,包括零售店面的選址,或者是公共基礎設施的選址。
這些全都是通過對使用者需求的大資料分析,然後供方提供相對定製化的服務。
應用的第二個方向,預測。
預測主要是圍繞目標物件,基於它過去、未來的一些相關因素和資料分析,從而提前做出預警,或者是實時動態的優化。
從具體的應用上,也大概可以分為三類。
一是決策支援類的,小到企業的運營決策,證券投資決策,醫療行業的臨床診療支援,以及電子政務等。
二是風險預警類的,比如疫情預測,日常健康管理的疾病預測,裝置設施的運營維護,公共安全,以及金融業的信用風險管理等。
第三種是實時優化類的,比如智慧線路規劃,實時定價等。
以上呢,是各種文獻資料裡,對於大資料可以用來做什麼的一些暢想,事實上也許大資料可以做的事情,可以擴充套件到方方面面。
但是,我們再看現實中,大資料實際應用到了什麼程度呢?
我認為,目前大資料真正實現了商業化的應用,只有一種,就是網際網路營銷。
其他我們前面列舉的方向,會有些初步的應用,但基本都還停留在探索的階段。比如疫情預測,無抵押信用貸款等,對於準確性、精細度、可推廣性等方面還有待推敲。
造成大資料實際應用與目標藍圖之間差距的主要原因是什麼,我認為是資料來源的問題。
你必須先獲得資料,然後才能應用資料。
因此,資料的可獲取性,成為大資料在具體行業應用性評價的一個重要維度。
可以從資料的標準化、開放性和集中度幾個維度衡量資料可獲取性
同時,獲取了資料之後,在應用資料方面,可以從大資料應用的潛在價值維度來衡量,包括效率的提升、成本降低或者是新模式的產生。
此外,還可以從大資料行業應用的可複製/推廣性的角度來衡量,不僅包括在本行業內的推廣,同時也包括跨行業的推廣性。
從三個維度,我個人對大資料在各行業應用的可能性做了一個定位,但這個定位還是非常定性和粗略的,具體可能還需要對行業有更多的大資料應用的探討和探索。
對於專門從事大資料應用的企業來說,大資料要怎麼做?
我認為可以從兩個維度發展,首先一個重點任務就是要累積資料,以自身擁有的網際網路資料及大資料技術兩個資源為基礎,從一些細分應用切入,比如可以先從企業角度,繼而擴充套件到行業甚至跨行業的角度,從細分應用先有一些產品的產出,這會成為獲取更多資料的入口,同時也為大資料更廣應用提供了方向借鑑。
但還有一點,對於平臺型的網際網路企業,在確定與哪些企業或者行業資料結合、應用大資料時,可以有一些篩選條件,比如,是不是發揮了平臺屬性,另外,這種應用是不是具有可複製或推廣性,不是隻侷限於某一個企業內,至少是可以應用到整個行業中的。
以上,是我個人對大資料的一些思考,也希望可以跟更多的朋友對於大資料實際應用上有些探討和學習。