Spark+Hadoop+Mahout大資料系列
阿新 • • 發佈:2019-01-06
大資料概述
Hadoop大資料分析生態環境;
資料分析與大資料分析:
(1)描述性分析:平均值、標準差;同比、環比發展速度;分位數、眾數;
(2)數理統計分析:抽樣估計;假設檢驗;方差分析;
(3)資料探勘方法:聚類分析; 分類分析(決策樹、神經網路、支援向量機、隨機森林);關聯規則;協同過濾;
(4)大資料分析:Hadoop(HDFS、mapreduce、hbase、mahout【聚類、分類、協同過濾】);spark;storm;
大資料學習之路
優秀的資料分析師的五維:
業務知識+SQL查詢+精通一種大資料分析工具+熟練掌握大資料分析和建模的方法+良好的溝通能力;
第一階段:系統架構篇
(1)大資料概述
(2)Linux作業系統
(3)Ubuntu系統介紹
(4)Hadoop單機、偽分佈、叢集搭建
第二階段:Hadoop實戰篇
(1)HDFS深入剖析
(2)Java程式設計基礎
(3)MapReduce基礎理論及高階程式設計實戰
(4)Hbase理論、部署及實戰
(5)Hive、impara理論及實戰
第三階段:大資料分析案例篇
(1)基於Hadoop+Mahout 的大資料分析案例實戰
(2)Spark 基礎原理、叢集安裝並執行Spark
(3)Spark SQL 原理及資料整合應用
(4)Hadoop+Spark大資料案例分析
總結
技術是基礎:
瞭解Java、Linux等基礎知識;
瞭解Hadoop、HDFS、MapReduce、Yarn原理及執行機制;
掌握Hive、Hbase、storm等技術;
分析是目標:
掌握主題推薦、分類、聚類等資料探勘技術和數理統計分析知識;
掌握Mahout、Spark等大資料分析工具;
實戰是硬道理:
會搭建大資料叢集,體會叢集模式下大資料分析的魅力;
參與幾個大資料分析專案的設計與開發;