電商專案實戰-專案需求及技術架構2
阿新 • • 發佈:2021-07-21
1、專案需求
(1)統計頁面的瀏覽量PV---使用mapreduce統計
(2)統計各個省份的瀏覽量---省、市---ip統計
(3)統計頁面的訪問量---各個頁面的訪問量---url---各頁面的ID
2、資料離線處理流程
(1)LogServer:很多的伺服器(叢集外)
前端客戶在訪問的時候,會請求日誌並在LogServer記錄下來
(2)HDFS:(叢集內)
日誌採集後,會落在HDFS上。
在HDFS上,假設按需求,按天以及按小時分割槽(目錄結構),儲存路徑是/project/input/raw/trackinfo.data
(3)MapReduce(叢集內)
通過MapReduce讀取並處理HDFS上的日誌資料,處理結束後,將處理結果還儲存在HDFS上並匯出至資料庫。
(4)DB(叢集內)
MapReduce處理的結果,通過Sqoop,從HDFS匯出至資料庫(關係型/非關係型)
(5)UI(叢集內)
通過前端UI層展現出來(報表等)
3、實現方式
整個專案分成2大部分來實現
(1)MapReduce實現:是通過java實現的。
(2)Hive實現:資料還是儲存在HDFS上的,但是通過sql實現的。