零基礎怎樣進行大數據的入門級學習?
這群人在國外被叫做數據科學家(Data
Scientist),這個頭銜最早由D.J.Pati和Jeff
Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家這個職位目前也已經在美國傳統的電信、零售、金融、制造、物流、醫療、教育等行業裏開始創造價值。
不過在國內,大數據的應用才剛剛萌芽,人才市場還不那麽成熟,“你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。”領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經周刊》說。
於是每家公司對大數據工作的要求不盡相同:有的強調數據庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司裏出現的Title,我們將其統稱為“大數據工程師”。
我們身處一個“技術爆炸”和“共享、開源”的時代,先進技術的更新叠代速率超過了歷史上任何一個時期,而且這些技術也不再閉塞,人人都可以接觸並學習。終身學習已經是我們每個人不得不面對的問題,這一點在大數據/人工智能領域體現的尤為明顯:層出不窮的新技術,一方面為我們帶來了便利,但同時也使我們面臨難以高效學習和選擇的窘境。因此,在這樣的時代背景下學習大數據知識,需要有相適應的邏輯和方法。
本文試圖幫助各位讀者用好各類“共享、開源”的學習工具以及學習渠道,躲過各類新手容易誤入的“深坑”,以最小時間成本和經濟成本,優質地完成目標技術的學習和掌握。
本文首先分析了時代背景,繼而對目前大數據領域的人才梯隊進行了劃分,最後給出了大數據/人工智能人才從菜鳥到高手的進階指南。
在這裏相信有許多想要學習大數據的同學,大家可以+下大數據學習裙:532加上二1八最後147,即可免費領取一整套系統的大數據學習教程
一、背景鋪墊
“技術爆炸”以及“共享開源”是這個時代最有特色的標簽,筆者認為二者是互為因果且緊密聯系的,首先在“技術爆炸”的時代,對於走在技術發展最前沿的研究團隊來說,“技術變現”的最好手段就是“共享開源”。反觀互聯網、移動互聯發展成熟之前,信息是十分閉塞的,某項技術創新一旦出現就需要第一時間註冊專利,技術需要靠政府來保護,而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。
現如今互聯網及移動互聯已經發展的十分成熟,新的信息會以極低的成本在極短的時間內傳遍世界的每個角落,所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網站,便會立即得到全球輿論的共同保護,這樣的力度要遠遠強於某個國家的專利保護。
隨後,只要新技術確有應用價值或者學術價值,那麽各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的offer,對於前沿團隊來說,技術變現的時間點要遠遠早於技術產品化的時間點。
其次,因為“技術爆炸”總有新的技術等待著前沿團隊去研究發現,所以前沿團隊保持領先的最好方法不是捂著現有成果不放,而是盡快“共享開源”實現變現,然後投入到新的研究工作中。
最後,“共享開源”也在很大程度上促進了“技術爆炸”,無論任何技術、科技的長足發展都需要一個龐大人才體系來支撐,反觀歷史上的各個時期,分享知識、培養人才的渠道主要是“學校”,這一渠道不但形式單一而且往往具備相當的門檻,會將相當一部分“有誌青年”擋在門外。
而在如今這個時代,知識傳播最快速的渠道是互聯網,由於“共享開源”,世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻,面向全部個體無差別開放,結果就是只要某一技術、科技領域有了很大的突破並具備廣闊的應用前景(如大數據、人工智能),那麽相應的人才梯隊會在短時間內自動補齊跟上。
站在大數據學術前沿的研究團隊只需要一往無前地開拓疆域,其後的人才梯隊隨即會自動開展“新技術論證”及“技術產品化”等“保障”工作,保障這一技術領域及相關行業的健康發展,來進一步促進資源向金字塔尖的前沿團隊匯聚,支撐其開拓工作。
大數據(巨量數據集合)是現代社會非常時髦的一個名詞。是數據科學的一個高階狀態。數據科學並沒有一個獨立的學科體系,統計學,機器學習,數據挖掘,數據庫,分布式計算,雲計算,信息可視化等技術或方法來對付數據。催生出了一些與大數據相關的職業,通過對數據的分析挖掘來影響企業的商業決策。
國內,大數據的應用處於萌芽狀態,人才市場還不太成熟,每家公司對大數據工作的要求不盡相同:有的強調數據庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司裏出現的Title,我們將其統稱為"大數據工程師"。
對於一些大公司來說,擁有碩博學歷的人是比較好的選擇,不過阿裏巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理數據的經驗並且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。想了解更多編程方面的分享請關註×××工宗號:程序員大牛,裏面也有分享這方面的文章和幹貨資料。
找對好×××,連滾帶爬往前走
現在已經不是一個單打獨鬥,憑著跌落斷崖後找到一本秘籍閉關幾年就能橫掃天下的時代了,無論是像Hinton(推翻了BP算法的BP算法之父)這樣的泰鬥,還是像何凱明(發best paper像一般人發paper一樣容易的神奇學霸)這樣的新秀,都處在各自非常靠譜的團隊中與小夥伴們共同探索。好×××不需要多,有一兩個真正靠譜的就已經足夠,至於隊友的重要性後文會慢慢闡釋。
菜鳥築基這部分最後要給出的建議就是,千萬不要在這個階段停留太久,不要等“準備好了”再去著手實踐,因為這裏的“準備好了”往往包含菜鳥的不自信,不去進一步提升自己是永遠準備不“好”的。一般情況下,想做“計算機視覺”或者“自然語言處理”等偏AI方向的同學在完成吳恩達的《深度學習》課程後,想做“數據挖掘”的同學在完成吳恩達的《機器學習》課程後,就可以選擇相應的實踐項目準備進入下一階段了。
那麽我們該選擇什麽實踐手段呢?最佳的情況是有大神帶隊做真實項目,但是這樣的機會往往可遇而不可求,在此不展開討論。普羅大眾型的辦法是參加一個大數據比賽項目,現在國內的“阿裏天池”以及國外的“Kaggle”都是開放式的大數據比賽平臺,平臺上會有各種組織發布的各類真實項目供大家實踐、比賽。讀到這裏各位心裏可能還存有很大的疑問:“就算學會了基本課程,在沒有人帶的情況下能上手實踐嗎?”,下文將陸續回答如何“連滾帶爬”的進行實踐。
初入江湖
找到一個最高的baseline
這裏的“baseline”可以理解為前人已經做出成果,當自己恰好需要去做相同工作時的參照。對於上文提到的情況,如果有大神帶隊進行實踐的話,那麽帶隊大神此前的實踐經驗就成為了全體小隊成員的“baseline”。那對於沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對於一類問題無從下手,例如剛剛學完“深度學習”的課程,但是不知道如何去做“自然語言處理”類的項目,最好的辦法是利用好國內的“萬方”以及“知網”這樣的論文查詢平臺,去查詢相關領域國內普通高校的學位論文,這樣的論文絕大部分都是中文並且會在論文中介紹大量的基礎背景知識,正好滿足了我們的需求。
有那麽一句成功學的佳句是“每天叫醒我的不是鬧鐘而是夢想”,這句話聽起來很勵誌,但對於90%的人來說就是胡扯,我們回首望去發現每天叫醒我們的往往是“上班遲到後被扣的工資”或者是“晚到實驗室後老板的殺氣”,這就是現實,聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及項目推進中,能讓我們不斷向前的最大動力往往是“在DDL前無法完成任務後小夥伴們的鄙視”以及“完成quick win後帶來的成就感”。
做好這一點除了上一小節提到的要合理劃分任務之外,最重要的就是有一個靠譜的teamleader不斷的進行推進(push),每到既定節點後雷打不動的推進。最後要啰嗦一句,根據馬斯洛需求層次理論,夢想應該屬於模型頂層的“自我實現需求”,如果一個人可以被“夢想”叫醒,那麽這個人的其他需求應該已經被很好的滿足了,所以我在這裏真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。
如何成為大數據工程師
由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
今年8月,阿裏巴巴舉辦了一個大數據競賽,把天貓平臺上的數據拿出來,去除敏感問題後,放到雲計算平臺上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。“通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大數據工程師湧現出來。”
顏莉萍建議,目前長期從事數據庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。
薪酬待遇
作為IT類職業中的“大熊貓”,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍表示,“大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。”在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿裏巴巴的首席數據官。“這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。”顏莉萍說。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
另外,大數據初學者有什麽不懂的可以關註微信公眾號:程序員大牛和轉發——我剛整理了一份大數據2018最新的0基礎入門和進階教程,無私分享
零基礎怎樣進行大數據的入門級學習?