1. 程式人生 > >大數據整體技術流程及架構

大數據整體技術流程及架構

charts 采集 echarts 架構 數據可視化 圖表 過程 理解 網站流量

1. 數據處理流程
網站流量日誌數據分析是一個純粹的數據分析項目,其整體流程基本上就是依據數據的處理流程進行。有以下幾個大的步驟:
? 數據采集
數據采集概念,目前行業會有兩種解釋:一是數據從無到有的過程(web服務器打印的日誌、自定義采集的日誌等)叫做數據采集;另一方面也有把通過使用Flume等工具把數據采集到指定位置的這個過程叫做數據采集。
關於具體含義要結合語境具體分析,明白語境中具體含義即可。
? 數據預處理
通過mapreduce程序對采集到的原始日誌數據進行預處理,比如清洗,格式整理,濾除臟數據等,並且梳理成點擊流模型數據。
? 數據入庫
將預處理之後的數據導入到HIVE倉庫中相應的庫和表中。
? 數據分析
項目的核心內容,即根據需求開發ETL分析語句,得出各種統計結果。
? 數據展現
將分析所得數據進行數據可視化,一般通過圖表進行展示。

2.系統的架構
技術分享圖片
相對於傳統的BI數據處理,流程幾乎差不多,但是因為是處理大數據,所以流程中各環節所使用的技術則跟傳統BI完全不同:
數據采集:定制開發采集程序,或使用開源框架Flume
數據預處理:定制開發mapreduce程序運行於hadoop集群
數據倉庫技術:基於hadoop之上的Hive
數據導出:基於hadoop的sqoop數據導入導出工具
數據可視化:定制開發web程序(echarts)
整個過程的流程調度:hadoop生態圈中的azkaban工具
技術分享圖片
其中,需要強調的是:

系統的數據分析不是一次性的,而是按照一定的時間頻率反復計算,因而整個處理鏈條中的各個環節需要按照一定的先後依賴關系緊密銜接,即涉及到大量任務單元的管理調度,所以,項目中需要添加一個任務調度模塊。
3. 數據展現
數據展現的目的是將分析所得的數據進行可視化,以便運營決策人員能更方便地獲取數據,更快更簡單地理解數據。
市面上有許多開源的數據可視化軟件、工具。比如Echarts.
技術分享圖片

大數據整體技術流程及架構