大資料初學者必做的20道題分享
A 大資料工程師是做什麼的?
用阿里巴巴集團研究員薛貴榮的話來說,大資料工程師就是一群"玩資料"的人,玩出資料的商業價值,讓資料變成生產力。大資料和傳統資料的最大區別在於,它是線上的、實時的,規模海量且形式不規整,無章法可循,因此"會玩"這些資料的人就很重要。
分析歷史、預測未來、優化選擇,這是大資料工程師在"玩資料"時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
B 需要具備的能力
數學及統計學相關的背景
就採訪過的BAT三家網際網路大公司來說,對於大資料工程師的要求都是希望有統計學和數學背景的碩士或博士學歷。缺乏理論背景的資料工作者,更容易進入一個技能上的危險區域(DangerZone)-一堆數字,按照不同的資料模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就不是真正有意義的結果,並且那樣的結果還容易誤導你。
計算機編碼能力
實際開發能力和大規模的資料處理能力是作為大資料工程師的必備要素。舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的資料,如何從這些毫無頭緒的文字、語音、影象甚至視訊中攫取有意義的資訊就需要大資料工程師親自挖掘。即使在某些團隊中,大資料工程師的職責以商業分析為主,但也要熟悉計算機處理大資料的方式。
C如何進行入門級學習
雖然資料科學並沒有一個獨立的學科體系,統計學,機器學習,資料探勘,資料庫,分散式計算,雲端計算,資訊視覺化等技術或方法都可以來對付資料。但從狹義上來看,資料科學就是解決三個問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是做資料工作的三個大步驟:
1、原始資料要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的資料;
2、資料"長什麼樣",有什麼特點和規律;
3、按照需要,比如要對資料貼標籤分類,或者預測,或者想要從大量複雜的資料中提取有價值的且不易發現的資訊,都要對資料建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能根據問題的不同也會有不同的小步驟,但按照這個大思路走,資料一般不會做跑偏。
到最後給大家推薦一個大資料學習群:774--666--256 裡面有大資料小白視訊教程,入門教程歡迎大家加入討論