大數據微職位學習心得分享
一。linux
1.Linux基礎和分布式集群技術學完此階段可掌握的核心能力:熟練使用Linux,熟練安裝Linux上的軟件,了解熟悉負載均衡、高可靠等集群相關概念,搭建互聯網高並發、高可靠的服務架構;學完此階段可解決的現實問題:搭建負載均衡、高可靠的服務器集群,可以增大網站的並發訪問量,保證服務不間斷地對外服務;學完此階段可擁有的市場價值:具備初級程序員必要具備的Linux服務器運維能力。1.內容介紹:在大數據領域,使用最多的操作系統就是Linux系列,並且幾乎都是分布式集群。該課程為大數據的基礎課程,主要介紹Linux操作系統、Linux常用命令、Linux常用軟件安裝、Linux網絡、防火墻、Shell編程等。2.案例:搭建互聯網高並發、高可靠的服務架構。
二: MapReduce、Hadoop 集群
在學習MAPREDUCE後,我們了解:1 MAPREDUCE快速上手為什麽需要MAPREDUCE、MAPREDUCE程序運行演示、MAPREDUCE編程示例及編程規範、MAPREDUCE程序運行模式、MAPREDUCE程序調試debug的幾種方式。2 MAPREDUCE程序的運行機制MAPREDUCE程序運行流程解析、MAPTASK並發數的決定機制、MAPREDUCE中的combiner組件應用、MAPREDUCE中的序列化框架及應用、MAPREDUCE中的排序、MAPREDUCE中的自定義分區實現、MAPREDUCE的shuffle機制、MAPREDUCE利用數據壓縮進行優化、MAPREDUCE程序與YARN之間的關系、MAPREDUCE參數優化通過以上各組件的詳解,深刻理解MAPREDUCE的核心運行機制,從而具備靈活應對各種復雜應用場景的能力
三、hive/impala
這章學習了HIVE應用場景、HIVE內部架構、HIVE與hadoop的關系、HIVE與傳統數據庫對比、HIVE的數據存儲機制、HIVE的運算執行機制。
1、通過對數據倉庫知識的加強初步掌握數據倉庫的核心概念和設計流程;
2、通過對HADOOP生態圈關鍵輔助工具的學習掌握hadoop分析系統的整合能力;
3、通過電商系統點擊流日誌數據挖掘系統實戰項目,掌握hadoop離線數據挖掘系統從數據采集、入庫、分析及報表展現的整套流程。
學完此階段可解決的現實問題:
1、可根據企業具體場景設計海量數據分析系統的通用架構
2、根據具體場景的特點有針對性地調整數據分析各環節的技術選型;
3、根據具體需求搭建起整套離線數據分析系統;
4、簡單數據倉庫模型的設計和架構
5、各環節具體功能模塊的開發實現學完此階段可擁有的市場價值:具備企業數據部中高級應用開發和初級架構師能力
四、python
是否具備code的能力是數據分析的一個分水嶺,senior的數據分析師會至少精通一種數據分析語言,並且如果想做數據挖掘,網絡爬蟲,交互可視化等等都是需要一定的代碼處理和理解能力的。這裏主要說Python,就我理解Python是一種萬能的語言,適用性非常強,除了數據分析還能夠做很多的事情,比如編寫程序,網站開發,深度學習等等。如果你決定使用Python,那麽你需要了解的點主要是各種包的搜索和調用,函數的編寫和嵌套,數據類型的把握(list, tuple, series, dict),條件判斷,循環叠代等等。最好的開發環境推薦Anaconda。
五、流式計算
1.流式計算核心技術流式計算核心技術主要分為兩個核心技術點:Storm和Kafka,學完此階段能夠掌握Storm開發及底層原理、Kafka的開發及底層原理、Kafka與Storm集成使用。具備開發基於storm實時計算程序的技術能力。學完此階段可掌握的核心能力:(1)、理解實時計算及應用場景(2)、掌握Storm程序的開發及底層原理、掌握Kafka消息隊列的開發及底層原理(3)、具備Kafka與Storm集成使用的能力
六、機器學習
首先是數學:線性代數、數學分析、概率論和數理統計。其次是機器學習基礎。基本功要打紮實。
接下來就是我總結的學習資源推薦:
01.Apache 官網
02.Stackoverflow
04.github
03.Cloudra官網
04.Databrick官網
05.過往的記憶(技術博客)
06.CSDN,51CTO
07.至於書籍當當一搜會有很多,其實內容都差不多
大數據微職位學習心得分享