年薪500k大資料工程師:所有程式設計師做到以下幾點,年薪百萬不是夢
大資料是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大資料處理相關的職業,通過對資料的挖掘分析來影響企業的商業決策。
資料視覺化
這群人在國外被叫做資料科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook資料科學團隊的負責人。而資料科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業裡開始創造價值。
雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理資料的經驗並且有喜歡在資料海洋中尋寶的好奇心會更適合這個工作。除此之外,一個優秀的大資料工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。“他得知道什麼是相關的,哪個是重要的,使用什麼樣的資料是最有價值的,如何快速找到每個業務最核心的需求。”聯合國百度大資料聯合實驗室資料科學家沈志勇說。學習能力能幫助大資料工程師快速適應不同的專案,並在短時間內成為這個領域的資料專家;溝通能力則能讓他們的工作開展地更順利,我是一名大資料程式設計師,建了一個大資料資源共享群716581014 每天分享大資料學習資料和學習路線,
資料迷茫期
需要具備的能力
1.數學及統計學相關的背景
就我們採訪過的BAT三家網際網路大公司來說,對於大資料工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。缺乏理論背景的資料工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的資料模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。“只有具備一定的理論知識,才能理解模型、複用模型甚至創新模型,來解決實際問題。”沈志勇說。
2.計算機編碼能力
實際開發能力和大規模的資料處理能力是作為大資料工程師的一些必備要素。
舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的資料,如何從這些毫無頭緒的文字、語音、影象甚至視訊中攫取有意義的資訊就需要大資料工程師親自挖掘。即使在某些團隊中,大資料工程師的職責以商業分析為主,但也要熟悉計算機處理大資料的方式。
3.對特定應用領域或行業的知識
大資料工程師這個角色很重要的一點是,不能脫離市場,因為大資料只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大資料工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。
分享大資料專業技術
大資料在Java的基礎之上,還需要學習的專業技術有:
基礎階段:Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis。
hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、歷史,HDFS工作原理,YARN介紹及元件介紹。
大資料儲存階段:hbase、hive、sqoop。
大資料架構設計階段:Flume分散式、Zookeeper、Kafka。
大資料實時計算階段:Mahout、Spark、storm。
大資料資料採集階段:Python、Scala。