大資料入門學習指導
隨著科技的發展,我們進入了大資料時代。大資料與人們的生活息息相關,而如今越來越多的學校也已經開設了資料科學與大資料專業,那麼現在正火熱的大資料究竟是什麼?身為學生的我們又該如何入門呢?
我還是要推薦下我自己建立的大資料資料分享群142973723,這是大資料學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大資料資料和入門教程。
- 什麼是大資料?
大資料(Big Data)由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的收集、管理和處理能力, 需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。簡單來說大資料就是“無法用現有的軟體工具提取、儲存、搜尋、共享、分析和處理的海量的、複雜的資料集合。
1.資料體巨大(Volume):當前,典型個人計算機硬碟的容量為TB量級,而一些大企業的資料量已經接近EB量級(1EB=210PB,1PB=210TB)。
2.資料型別多(Variety):除了以往常見的文字資料外,還有其他的資料型別,包括網路日誌、音訊、視訊、圖片、地理位置資訊等等等等。
3.價值密度低(Value):價值密度的高低與資料總量的大小成反比。所以對於大資料來說這一點是毋庸置疑的。
4.速度快(Velocity):指的是資料輸入輸出的速度。
- 大資料能幹什麼?
大資料在很多方面都有用到,包括感測裝置網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會資料分析、網際網路檔案處理、製作網際網路搜尋引擎索引、通訊記錄明細、軍事偵查、金融大資料,醫療大資料,社交網路、通勤 時間預測、醫療記錄、照片影象和視訊封存、大規模的電子商務等各方面。
舉個例子,洛杉磯警察局和加利福尼亞大學合作利用大資料預測犯罪的發生(BBC紀錄片”大資料時代的來臨“中提到了這個),他們採集分析了80年來1300萬起犯罪案件,用於進行犯罪行為的大型研究,通過演算法預測成功將相關區域的犯罪率降低了36個百分點。聽起來是不是很神奇?他們利用大量的資料進行犯罪研究,建立了一個犯罪預測演算法,把洛杉磯市分成單位面積約為0.15平方公里的一個個“方塊區”,然後按照犯罪行為發生的可能性為這些方塊區排序。
在當天早晨點名時,富特希爾區的每個巡邏警察都收到一份任務地圖,每張地圖上都清楚地標示出一個或多個方塊區,表明這些地區是犯罪發生“可能性高”的區域。圖上還附有犯罪型別的統計學預測。馬林諾夫斯基告訴他們:“只要你們有時間,就深入這些方塊區巡邏,找出那些可能會採取犯罪行為的人或預示著可能會發生犯罪案件的狀況,並採取強制或預防措施,避免犯罪案件發生。”
不得不說,大資料能幹的事情真的是太多了!
- “資料科學與大資料技術”專業怎麼樣?
麥肯錫(McKinsey)公司曾出具一份詳細分析,該分析顯示預計到2018年,大資料或者資料工作者的崗位需求將激增,其中大資料科學家的缺口在140000到190000之間,對於懂得如何利用大資料做決策的分析師和經理的崗位缺口則將達到1500000!
這意味著目前大資料類的人才非常稀缺,換句話說,大資料的就業前景還是蠻不錯的,為了解決大資料人才缺少的問題,很多高校設立了資料科學與大資料技術的本科專業,那麼這個專業難嗎?那是肯定的,畢竟大資料以前屬於研究生方向而現在卻改成了本科生方向。而且資料科學與大資料技術專業可以說是基本上整合了數學、計算機、統計學三門學科的一個專業,這三個專業無論單看哪一個都是非常累人的而且還難,整合到一起就更不用說了。因此想要選這個專業最好邏輯思維強,數學好。
- 如何入門大資料?
說了這麼多,那麼大資料應當如何入門呢?
首先你要有基本的數學知識:高等數學, 線性代數,概率論。
這些都非常重要,大多數大學都有開設這三門課,就不多說了。在這裡推薦一本不是課本的書:李航的《統計學習方法》
有了基本的數學知識後就可以入門大資料的基礎:機器學習 了,瞭解一些相關的概念,比如決策樹,神經網路,SVM, 貝葉斯,BP, 整合學習等等,有了這些理論知識後再自己動手敲程式碼來實現。
推薦書籍:《機器學習》
有了基礎知識就要學會用,python為必學程式語言, 同時也因為其語言的簡潔非常適合入門學習,而且python語言有非常強大的庫,說了這麼多,自己一定要多敲程式碼!多敲程式碼!多敲程式碼!重要的事情說三遍!
- 大資料專業的工作崗位?
學習大資料也可以參考自己想做的工作的招聘資訊來決定自己的學習方向,目前大資料相關比較熱門的崗位有以下幾個:
1.大資料系統架構師
大資料平臺搭建、系統設計、基礎設施。
2.大資料系統分析師
面向實際行業領域,利用大資料技術進行資料安全生命週期管理、分析和應用。
3.hadoop開發工程師。
解決大資料儲存問題。
4.資料分析師
不同行業中,專門從事行業資料蒐集、整理、分析,並依據資料做出行業研究、評估和預測的專業人員。在工作中通過運用工具,提取、分析、呈現資料,實現資料的商業意義。
5.資料探勘工程師
做資料探勘要從海量資料中發現規律。
6.大資料視覺化工程師
隨著大資料在人們工作及日常生活中的應用,大資料視覺化也改變著人類的對資訊的閱讀和理解方式。從百度遷徙到谷歌流感趨勢,再到阿里雲推出縣域經濟視覺化產品,大資料技術和大資料視覺化都是幕後的英雄。