1. 程式人生 > >大數據學習——日誌分析

大數據學習——日誌分析

time mapreduce apr style join nbsp 其中 登陸 統計

有兩個海量日誌文件存儲在hdfs上, 
其中登陸日誌格式:user,ip,time,oper(枚舉值:1為上線,2為下線);
訪問之日格式為:ip,time,url,假設登陸日誌中上下線信息完整,切同一上下線時間段內是用的ip唯一,
計算訪問日誌中獨立user數量最多的前10個url,用MapReduce實現。

提示:
1、要統計前10,需要兩個步驟,第一個步驟實現join,統計出每個url對應的獨立用戶數,第二步驟求出top10
2、兩個大表join,用同一job多輸入
3、要根據ip字段join,所以要根據ip分區
4、求top10

大數據學習——日誌分析