pyspark練習--進行日誌提取IP並列印排行前五的訪問次數的IP

阿新 • • 發佈：2018-12-11

拿到測試用日誌檔案並分析

27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET/static/image/common/faq.gif HTTP/1.1" 200 1127
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /data/cache/style_1_widthauto.css?y7a HTTP/1.1" 200 1292
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/hot_1.gif HTTP/1.1" 200 680
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/hot_2.gif HTTP/1.1" 200 682
27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/filetype/common.gif HTTP/1.1" 200 90
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /source/plugin/wsh_wx/img/wsh_zk.css HTTP/1.1" 200 1482
110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /data/cache/style_1_forum_index.css?y7a HTTP/1.1" 200 2331

發現IP為每段日誌開頭並使用“ ”進行分割即可

利用本地IDE進行類wordcount開發程式碼如下 import os import sys from pyspark import SparkConf, SparkContext from operator import add

os.environ[‘PYSPARK_PYTHON’] = ‘/home/hadoop/app/python3/bin/python3’

if name == ‘main’: if len(sys.argv) != 2: print(‘Usage: TopN’, file=sys.stderr) sys.exit(-1) # 初始化 conf = SparkConf() sc = SparkContext(conf=conf)

# ip
data = sc.textFile(sys.argv[1]).map(lambda x: x.split(' '))
# ip賦值為1
ip = data.map(lambda x: (x[0], 1))
# 同ip計數
count_ip = ip.reduceByKey(add)
# ip排序
sort = count_ip.map(lambda x: (x[1], x[0])).sortByKey(False).map(lambda x: (x[1], x[0]))
# 列印到控制檯
print(sort.take(5))

sc.stop()

執行spark-submit指令

./spark-submit --master local[2] --name loganglice /home/hadoop/data/5/log.py hdfs:///test/access_2013_05_30.log

根據不同檔案地址進行不同輸入，此處為個人HDFS檔案等待輸出結果在這裡插入圖片描述結果如下可以發現IP 222.133.189.179訪問次數最多,為29948次其次是61.50.141.7為22836次，第三為123.147.245.79為9999次，第四為49.72.74.77為8879次，第五為60.10.5.65為6341次

pyspark練習--進行日誌提取IP並列印排行前五的訪問次數的IP

pyspark練習--進行日誌提取IP並列印排行前五的訪問次數的IP

IDEA編輯Spring-Boot Web，設定日誌級別，並列印到相應的目錄下。

【hadoop】1、MapReduce進行日誌分析，並排序統計結果

loadRunner之引數化，對使用者名稱和密碼進行引數化，並列印輸出

Java查詢陣列重複元素，並列印重複元素、重複次數、重複元素位置

Python文件練習_查找log中的IP並統計

MATLAB進行二值處理並提取畫素值

輸出控制檯資訊到日誌並通過cronolog對tomcat進行日誌切分

java使用slf4j+log4j進行日誌記錄並將ERROR級別資訊入庫

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

使用MDC進行日誌列印

需求:使用者從控制檯輸入 10個不同數字 ,進行從大到小進行排序並列印在控制檯

檢視DNS主機名解析的主機IP並向DNS伺服器進行DNS域名解析

從MySQL中提取資料並對欄位進行字串處理

14海量日誌提取出現次數最多的IP

封裝service層錯誤並列印進日誌

統計apache日誌檔案裡訪問量前十的ip並按從多到少排列

【python ip提取】從log日誌提取ip

springAOP攔截並列印controller層請求日誌---註解方式實現

NGINX配置獲取CloudFlare 下的訪客真實IP並記錄到日誌

pyspark練習--進行日誌提取IP並列印排行前五的訪問次數的IP

相關推薦