1. 程式人生 > >大數據基礎問答

大數據基礎問答

spark sql 分布式文件系 問題 體系結構 java ase 二階 創建 acl

什麽是大數據?
用於①數據的存儲:分布式文件系統(分布式存儲)②數據的計算:分布式計算。簡單一點就是存儲和計算的問題,解決日常海量數據的分析。

學習大數據需要什麽基礎呢?
Java基礎(Javase):類、類、繼承、I/O、反射、泛型等;
Linux基礎(Linux的操作):創建文件、目錄、vi編輯器的使用;

Java和大數據都有哪些關系呢?
基於Java語言開發→→→ Hadoop體系結構、原理、編程
第一階段:HDFS、MapReduce、HBase(NoSQL數據庫)
第二階段:數據分析引擎 ---> Hive、Pig
數據采集引擎 ---> Sqoop、Flume
第三階段:HUE:Web管理工具

ZooKeeper:實現Hadoop的HA
Oozie: 工作流引擎*
基於Java語言開發→→→Scala語言→→→Spark
Spark的學習
第一個階段:Scala編程語言
第二個階段:Spark Core-----> 基於內存,數據的計算
第三個階段:Spark SQL -----> 類似Oracle中的SQL語句
第四個階段:Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠

Apache Storm:類似Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠
NoSQL:Redis基於內存的數據庫

大數據基礎問答