1. 程式人生 > >大資料特點和基本處理流程

大資料特點和基本處理流程

1.大資料的4V特性

中文 英文
大量化 volume
快速化 velocity
多樣化 variety
價值化 value

2.大資料的基本處理步驟

  1. 資料獲取
    flume
    資料來源:專業資料機構,國家統計局,企業內部資料,網際網路資料
  2. 資料清洗
    mapreduce
    清除不需要,錯誤,無效的資料
  3. 資料儲存
    hdfs
    效能,可用,可靠,成本等方面考量
  4. 資料處理
    hive
    按業務需求處理
  5. 資料分享
    sqoop,kettle
    視覺化展示,最大化利用資料價值

3.Hadoop

  1. apache旗下開源軟體平臺,廣義是指Hadoop生態圈
  2. 利用分散式叢集,根據具體業務,對海量資料進行分散式處理
  3. 核心元件包括COMMON,HDFS,YARN,MAPREDUCE

4.元件

元件名稱 主要功能
HDFS 分散式檔案系統
MAPREDUCE 分散式運算程式開發框架
HIVE 基於檔案系統和運算框架的SQL資料倉庫工具
ZOOKEEPER 分散式協調服務基礎元件
HBASE 分散式資料庫OLTP
Mahout 基於分散式運算框架的機器學習演算法庫
Saoop 資料的匯入匯出工具
Flume 日誌資料採集框架

5.分散式系統

  1. 劃分成多個子系統或模組,各自執行在不同機器上,通過網路通訊協作實現整體功能
  2. 作業系統,程式設計語言,編譯系統,檔案系統,資料庫

6.ETL (資料倉庫技術)

中文 英文
抽取 extract
互動轉換 transform
載入 load

7.BI

  1. 商業智慧
  2. 將企業現有資料有效整合,快速準確提供報表提出決策依據,幫助作出業務決策
  3. 需求分析和功能實現依賴的技術元件
    BI基本流程
    技術元件