1. 程式人生 > 其它 >電商專案實戰-專案需求及技術架構2

電商專案實戰-專案需求及技術架構2

1、專案需求

(1)統計頁面的瀏覽量PV---使用mapreduce統計

(2)統計各個省份的瀏覽量---省、市---ip統計

(3)統計頁面的訪問量---各個頁面的訪問量---url---各頁面的ID

2、資料離線處理流程

(1)LogServer:很多的伺服器(叢集外)

前端客戶在訪問的時候,會請求日誌並在LogServer記錄下來

(2)HDFS:(叢集內)

日誌採集後,會落在HDFS上。

在HDFS上,假設按需求,按天以及按小時分割槽(目錄結構),儲存路徑是/project/input/raw/trackinfo.data

(3)MapReduce(叢集內)

通過MapReduce讀取並處理HDFS上的日誌資料,處理結束後,將處理結果還儲存在HDFS上並匯出至資料庫。

(4)DB(叢集內)

MapReduce處理的結果,通過Sqoop,從HDFS匯出至資料庫(關係型/非關係型)

(5)UI(叢集內)

通過前端UI層展現出來(報表等)

3、實現方式

整個專案分成2大部分來實現

(1)MapReduce實現:是通過java實現的。

(2)Hive實現:資料還是儲存在HDFS上的,但是通過sql實現的。