使用awk && sed 提取日誌中的有效信息

阿新 • • 發佈：2018-08-21

截取 cat uniq follow 去重開始 for ash 一級目錄

日誌信息：

源數據：1.1.1.1 - - [08/Aug/2018:00:00:14 +0800] "GET http://www.test.test/test1/test2/tes3 HTTP/1.1" 200 1306 "http://a.b.cn/test/test?form" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"
訪問一級目錄： http://www.test.test/test1 訪問來源： http://a.b.cn

開始處理:
1.先使用awk 提取需要的信息，由於目標站點的域名是固定的 www.test.test 所以這個不做判斷，只判斷訪問來源和訪問狀態
#取第7 9 11列狀態200 源是b.cn
awk ‘$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}‘

得到如下數據

http://www.test.test/test1/test2/tes3 200 http://a.b.cn/test/test?form

2.再使用sed 對剩下的數據進行處理，只需要源的域名，以及訪問目標的一級域名

 sed ‘s/"//g‘ | sed ‘s/\(http:\/\/[a-zA-Z0-9]*\.b\.cn\)\/.*/\1/g‘   #截取b.cn域名信息
 sed ‘s/\(http:\/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g‘ #取www.test.test的第一級目錄

3.通過awk 和 sed 之後，再去重。去重需要先排序再使用 uniq去重

sort -k2n | uniq

4.完整腳本

#!/bin/bash
cd /home/log
log=`ls *.log`
for i in $log
do
          cat $i | awk ‘$9 =="200" && $11 ~/^"http:\/\/[a-zA-Z0-9]*\.b\.cn/ {print $7,"\t",$9,"\t",$11}‘ |  sed ‘s/"//g‘ | sed ‘s/\(http:\/\/[a-zA-Z0-9]*\.test\.test\)\/.*/\1/g‘| sed ‘s/\(http:
\/\/www\.test\.test\/[0-9a-zA-Z_]*\/\).*200/\1/g‘ >>test.log
done
sleep 3
cat test.log | sort -k2n | uniq >test1.log

使用awk && sed 提取日誌中的有效信息

截取 cat uniq follow 去重開始 for ash 一級目錄日誌信息：源數據：1.1.1.1 - - [08/Aug/2018:00:00:14 +0800] "GET http://www.test.test/test1/test2/tes3

使用awk && sed 提取日誌中的有效信息

使用awk && sed 提取日誌中的有效信息

在linux中使用shell來分析統計日誌中的信息

python學習筆記——爬蟲中提取網頁中的信息

咁縷神念中包含信息全畀一吸而入，先前噬金蟲聽到睇到嘅

MS SQL 監控錯誤日誌的告警信息

分頁（將數據庫中的信息分頁顯示到網頁）

強制復制頁面中的信息

(轉)linux sudo 重定向，實現只有系統管理員才有權限操作的文件中寫入信息

C#_從DataTable中檢索信息

pycharm查看代碼註釋的方法，代碼編寫日誌及作者信息等

收集域中電腦信息

zabbix中php信息缺失之後的安裝

Django獲取Header中的信息

python獲取linux中top信息

使用dom4j技術來讀取xml中的信息。

kubernetes環境下創建pod過程中異常信息總結整理

jsp輸出shiro中session信息

MySQL 8.0 中統計信息直方圖的嘗試

mysql 顯示完整的processlist中info信息

向註冊表中寫入信息

使用awk && sed 提取日誌中的有效信息

相關推薦