1. 程式人生 > >大資料學習——日誌分析

大資料學習——日誌分析

有兩個海量日誌檔案儲存在hdfs上, 
其中登陸日誌格式:user,ip,time,oper(列舉值:1為上線,2為下線);
訪問之日格式為:ip,time,url,假設登陸日誌中上下線資訊完整,切同一上下線時間段內是用的ip唯一,
計算訪問日誌中獨立user數量最多的前10個url,用MapReduce實現。

提示:
1、要統計前10,需要兩個步驟,第一個步驟實現join,統計出每個url對應的獨立使用者數,第二步驟求出top10
2、兩個大表join,用同一job多輸入
3、要根據ip欄位join,所以要根據ip分割槽
4、求top10