零基礎怎麼規劃自己的系統學習大資料路線呢?
介紹
本文的目的是為所有大資料初學者制定一個清晰的學習路線,幫助他們開啟大資料的學習之旅。鑑於大資料領域的輝煌和複雜的技術,每個大資料初學者應該根據自己的實際情況制定自己的學習路徑。
大資料,即大資料,對它有很多定義。最權威的是IBM的定義,它可以被讀者閱讀。由於本文關注的是如何學習大資料,首先要在大資料域中定義不同的角色,以便讀者能夠根據自己的實際情況找到自己的位置,從而開啟學習過程。
在我看來,大資料產業有以下兩種型別的角色。
大資料工程
大資料分析
為什麼這兩種角色相互依賴,獨立運作?沒有大資料工程,大資料分析是不可能的,但沒有大資料分析,就沒有理由進行大資料工程。這與婚姻和愛情相似——愛情的目的是結婚,而不是為了愛情而結婚,是玩流氓。
很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
特別是大資料工程需要解決資料的定義、收集、計算和儲存等工作。因此,大型資料工程師首先考慮資料的高可用性問題,設計和部署這樣的系統,即大資料工程系統需要為下游業務系統或分析系統實時提供資料服務。而大型資料分析的角色定位在如何使用資料從大型資料工程系統接收資料,如何為企業或組織提供生產性資料分析,並且它確實幫助公司改進或提高服務水平,因此對於大資料分析者來說,它們是F。解決這個問題。問題是發現和利用資料的價值,包括趨勢分析、模型建立和預測分析。
總而言之,大資料工程角色需要考慮資料收集、計算(或處理)和儲存;大資料分析角色是用於執行資料的高階計算。
行業經驗
這裡的專業知識背景不是學歷和機構的背景,而是你對一些IT技術的理解。即使你不是計算機專業的,只要你在C語言中有一個熱血,即使C Dennis Ritchie的父親也不敢貶低你。因此,這裡只有兩個專業知識。
計算機專業知識,如作業系統、程式設計語言、計算機操作原理等。
數學知識,指高等數學,如微積分,概率統計,線性代數和離散數學,不是x*x+y x y=1。
而行業經驗指的是你在相關領域的工作經驗。
一、從入門到進階,大致羅列了8大學習階段:
很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
第一階段 Java語言基礎
Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類
第二階段 HTML、CSS與JavaScript
PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript互動功能開發、Ajax非同步互動、jQuery應用
第三階段 JavaWeb和資料庫
資料庫、JavaWeb開發核心、JavaWeb開發內幕
第四階段 Linux&Hadoopt體系
Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架
第五階段 實戰(一線公司真實專案)
資料獲取、資料處理、資料分析、資料展現、資料應用
第六階段 Spark生態體系
Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算
第七階段 Storm生態體系
storm技術架構體系、Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解
第八階段 大資料分析 —AI(人工智慧)
Data Analyze工作環境準備&資料分析基礎、資料視覺化、Python機器學習
1、Python機器學習
2、影象識別&神經網路、自然語言處理&社交網路處理;
二、大資料究竟大到什麼地步?
堪比小編的胃 以及內心滿滿的叛逆勇氣
"大資料"首先是指資料體量(volumes)大,指代大型資料集,一般在10TB規模左右,但在實際應用中,很多企業使用者把多個數據集放在一起,已經形成了PB級的資料量;
其次是指資料類別(variety)大,資料來自多種資料來源,資料種類和格式日漸豐富,已衝破了以前所限定的結構化資料範疇,囊括了半結構化和非結構化資料。接著是資料處理速度(Velocity)快,在資料量非常龐大的情況下,也能夠做到資料的實時處理。
最後一個特點是指資料真實性(Veracity)高,隨著社交資料、企業內容、交易與應用資料等新資料來源的興趣,傳統資料來源的侷限被打破,企業愈發需要有效的資訊之力以確保其真實性及安全性。
4個V(Vol-ume、Variety、Value和Veloc-ity)也概括總結出了大資料的4大優勢和特點,即體量大、多樣性、價值密度低、速度快。這也是大資料與以往的海量資料相比最主要的區別:
1、 資料體量巨大。從TB級別,躍升到PB級別。
2、 資料型別繁多,涉及網路日誌、視訊、圖片、地理位置等資訊。
3、 價值密度低。以視訊為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。
4、 處理速度快。1秒定律。最後這一點也是和傳統的資料探勘技術有著本質的不同。物聯網、雲端計算、移動網際網路、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感測器,無一不是資料來源或者承載的方式。
大資料技術是指從各種各樣型別的巨量資料中,快速獲得有價值資訊的技術。解決大資料問題的核心是大資料技術。目前所說的"大資料"不僅指資料本身的規模,也包括採集資料的工具、平臺和資料分析系統。大資料研發目的是發展大資料技術並將其應用到相關領域,通過解決巨量資料處理問題促進其突破性發展。
因此,大資料時代帶來的挑戰不僅體現在如何處理巨量資料從中獲取有價值的資訊,也體現在如何加強大資料技術研發,搶佔時代發展的前沿。
對“大資料”有了清晰的概念之後,我們來看看大資料涉及的技術和具體知識。
三、大資料學習涉及技術
1、資料採集:ETL工具負責將分佈的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫或資料集市中,成為聯機分析處理、資料探勘的基礎。
2、資料存取:關係資料庫、NOSQL、SQL等。
3、基礎架構:雲端儲存、分散式檔案儲存等。
4、資料處理:自然語言處理是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解,也稱為計算語言學。一方面它是語言資訊處理的一個分支,另一方面它是人工智慧(Artificial Intelligence)的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、資料探勘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和視覺化、Description and Visualization)、複雜資料型別挖掘(Text, Web ,圖形影象,視訊,音訊等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲端計算、標籤雲、關係圖等。