大資料特點和基本處理流程
阿新 • • 發佈:2019-01-28
1.大資料的4V特性
中文 | 英文 |
---|---|
大量化 | volume |
快速化 | velocity |
多樣化 | variety |
價值化 | value |
2.大資料的基本處理步驟
- 資料獲取
flume
資料來源:專業資料機構,國家統計局,企業內部資料,網際網路資料 - 資料清洗
mapreduce
清除不需要,錯誤,無效的資料 - 資料儲存
hdfs
效能,可用,可靠,成本等方面考量 - 資料處理
hive
按業務需求處理 - 資料分享
sqoop,kettle
視覺化展示,最大化利用資料價值
3.Hadoop
- apache旗下開源軟體平臺,廣義是指Hadoop生態圈
- 利用分散式叢集,根據具體業務,對海量資料進行分散式處理
- 核心元件包括COMMON,HDFS,YARN,MAPREDUCE
4.元件
元件名稱 | 主要功能 |
---|---|
HDFS | 分散式檔案系統 |
MAPREDUCE | 分散式運算程式開發框架 |
HIVE | 基於檔案系統和運算框架的SQL資料倉庫工具 |
ZOOKEEPER | 分散式協調服務基礎元件 |
HBASE | 分散式資料庫OLTP |
Mahout | 基於分散式運算框架的機器學習演算法庫 |
Saoop | 資料的匯入匯出工具 |
Flume | 日誌資料採集框架 |
5.分散式系統
- 劃分成多個子系統或模組,各自執行在不同機器上,通過網路通訊協作實現整體功能
- 作業系統,程式設計語言,編譯系統,檔案系統,資料庫
6.ETL (資料倉庫技術)
中文 | 英文 |
---|---|
抽取 | extract |
互動轉換 | transform |
載入 | load |
7.BI
- 商業智慧
- 將企業現有資料有效整合,快速準確提供報表提出決策依據,幫助作出業務決策
- 需求分析和功能實現依賴的技術元件