使用awk生成access日誌多維度分析報表

阿新 • • 發佈：2019-02-05

原由：

某天某專案網站被一些IP惡意DDOS，因為沒有賣運營商的流量清洗等等之類的防護服務，導致該專案無法訪問
產生了三個處理需求：
    需要識別惡意IP進行封堵
    需要定位被攻擊的頁面查詢攻擊弱點
    需要定位攻擊頻繁的時段進行監控
這三個需求其實都不能實質解決問題
因為IP是封不完的，監控也是隻能知道自己有沒有被攻擊而已，而找到了被攻擊的頁面也只是找到了本次被攻擊的弱點而已
類似的漏洞是數不勝數的，解決辦法只有上架流量清洗裝置或者從運營商那裡買防護服務或者請專門的白帽子團隊進行測試

測試資料：

tomcat的access日誌格式配置：server.conf
pattern="%{X-FORWARDED-FOR}i %l %u %t %r %s %b %D %q %{User-Agent}i %T"
測試資料是生產某專案的真實access日誌做了IP和url的脫敏處理之後的資料

這裡寫圖片描述

識別惡意IP：

需求1：根據訪問IP的訪問量生成報表
分析1：如果以空格作為分隔符，那麼就是以第1列作為分析的資料列，進行分類彙總排序生成報表，單維度的分析報表
命令1：

cat tomcat8_access.log.2018-05-09.txt|\
awk '{IPs[$1]++}END{for(ip in IPs) print ip,IPs[ip]}'|\
sort -nk2|column -t|tail

這裡寫圖片描述
解釋1：

1. 使用cat命令讀取整個檔案
2. awk命令分為兩部分 {IPs[\$1]++} 和 END{for(ip in IPs) print ip,IPs[ip]}
3. 
 第一部分 {IPs[\$1]++} 將每一行的\$1，也就是第1列作為下標名，存入名為IPs的陣列
   IPs陣列在建立前並沒有定義，因此是一個空的陣列
   每一行的$1如果是首次存入該陣列，存入前該下標元素也是不存在的，為空
   這裡的 ++ 相當於C語言的 i++ 操作，也就是加1，如果原來為空，則操作後為1，否則為自加1
   這就實現了ip為下標的IPs的陣列元素的建立和自增計數：
       ip第一次出現的時候建立，值為1
       如果不是第一次出現，那麼則自加
   值就是ip出現的次數，那麼也就代表訪問IP的訪問量
4. 第二部分 END{for(ip in IPs) print 
 ip,IPs[ip]}
   這裡的END表示所有的資料行全部處理完之後再做操作
   如果沒有END，則表示每一行都進行這兩部分的操作，陣列自加和列印，處理邏輯就是錯誤的
   所有的資料行全部處理完之後得到的IPs這個陣列是一個一維陣列，用for迴圈進行遍歷列印
   列印每個ip和該ip作為陣列下標在IPs中的值，即訪問IP的訪問量
5. 使用sort命令對第二列進行升序排序 -k2，以數字型別進行排序 -n
6. 使用column命令格式化輸出，使用tail命令取出尾部幾行進行驗證

定位被攻擊的頁面：

可以簡單的以頁面的訪問量生成報表：

cat tomcat8_access.log.2018-05-09.txt|\
awk '{URLs[$7]++}END{for(url in URLs) print url,URLs[url]}'|\
sort -nk2|column -t|tail

但是這是不準確的，有些頁面如首頁是每次正常訪問都會被點選的，因此應該是根據IP和URL兩個維度生成報表

需求2：根據訪問IP的訪問量和被訪問的頁面生成報表
分析2：如果以空格作為分隔符，那麼就是第1列和第7列作為分析的資料列，生成雙維度的分析報表
命令2_1：

cat tomcat8_access.log.2018-05-09.txt|\
awk '{IPs[$1]++;IPsURLs[$1":"$7]++}
  END{for(ip in IPs)
       {for(ipurl in IPsURLs)
         {
           split(ipurl,INFO,":")
           if(INFO[1]==ip)
           printf("IP:%s\n\t總訪問量:%d\n\tIP訪問的相應URL:%s\n\t該URL訪問量:%d\n\tINFO中的IP:%s\n\tINFO中的URL:%s\n",ip,IPs[ip],ipurl,IPsURLs[ipurl],INFO[1],INFO[2])
         }
       }
     }'|head -18

這裡寫圖片描述
命令2_2，上一個命令基礎上優化展示資訊：

cat tomcat8_access.log.2018-05-09.txt|\
awk '{IPs[$1]++;IPsURLs[$1":"$7]++}
  END{for(ip in IPs)
       {for(ipurl in IPsURLs)
         {
           split(ipurl,INFO,":")
           if(INFO[1]==ip)
           printf("IP:%s 總訪問量:%d 訪問的URL:%s 訪問量:%d\n",ip,IPs[ip],INFO[2],IPsURLs[ipurl])
         }
       }
     }'|sort -nk2 -nrk4|column -t|tail -50

這裡寫圖片描述
解釋2_1：

根據解釋1，不難理解awk分為兩個部分
第一部分將$1存入IPs陣列，將$1和$7用冒號拼接成一列，存入IPsURLs陣列
第二部分使用for迴圈遍歷IPs陣列，遍歷IPs的每一個ip的時候
再次使用for迴圈遍歷IPsURLs陣列，遍歷IPsURLs的每一個ipurl的時候
將該ipurl做切分，存入INFO陣列，下標從1開始的一個臨時陣列
此時我們就擁有了這些資料：
    IPs中的ip，IPs中的訪問量IPs[ip]
    INFO中的ip，INFO中的url，和該ip對應的url的訪問量IPsURLs[ipurl]
    因為這是兩個for迴圈的巢狀遍歷，因此當IPs中的ip和INFO中的ip相等時就是所需資料
    其他情況則是巢狀迴圈遍歷生成的冗餘資料，這個地方類似於笛卡爾積和等值連線的區別

解釋2_2：

我們換個角度去解釋這個awk的報表：
這裡有兩張關係表：
IPs(ip,pv)
    列ip是主鍵，列pv代表點選量，其值就是IPs[ip]
IPsURLs('ip:url',pv)
    列'ip:url'可以看作是兩欄位的組合主鍵
    那麼ip相當於外來鍵將兩表關聯成了一對多關係
    列pv依然代表點選量，但是代表的是某一個ip對某一個url的點選量
    其值就是IPsURLs['ip:url']
這就是awk的第一部分做的兩個資料的生成操作
第二部分操作，首先要對IPsURLs進行處理
    因為列'ip:url'實際上是兩列做的字串拼接出來的一列
    因此使用awk的內建函式split，指定分隔符為冒號，將分割出的倆列存入INFO中
    INFO是下標從1開始一個列表，相當於將每一個ipurl臨時生成了一個INFO表：INFO(ip,url)
此時我們就擁有了IPs表的ip和該ip的點選量
INFO表的ip和url以及這倆維度相關聯的點選量IPsURLs['ip:url']
那麼INFO表的ip和IPs表的ip相等時就是所需要的資料

將第二部分寫成SQL：
with info as(
select regexp_substr('ip:url','[^:]+',1,1) as split_ip,
       regexp_substr('ip:url','[^:]+',1,2) as split_url,
       pv as split_pv
  from IPsURLs)
select ip,pv,split_url,split_pv
  from info,IPs
 where info.split_ip=IPs.ip;
-- 這個是在oracle執行的sql，對mysql的高階sql沒有愛
-- 這個sql只是憑經驗寫的一個解釋性的sql，沒有經過資料驗證

通過這個解釋，我們看出，實際上是用awk做了關係資料的生成和拆解查詢
所有的所謂報表基本上都是對資料集合進行的操作
只不過是過程化處理+集合處理相結合的方式進行處理
這也是為啥BI職位需要C或者Python等語言的編碼能力和SQL能力

看到這裡，玩過hive的筒子們就能想到了，這不就是hive對此類需求的處理原理麼！
平面檔案-->格式轉換-->匯入hive庫-->查詢分析-->展示

定位攻擊頻繁的時段：

實際上滿足需求只需要根據IP和小時時刻兩個維度進行生成報表即可
上面兩個需求我們分析了單維度和雙維度的報表，這個需求我們做一下三維度的報表
根據IP、小時時刻和url生成報表，單純的使用空格分隔符是無法直接切出來這三個資訊的
需要使用空格和冒號兩個分隔符來切分資料：

head tomcat8_access.log.2018-05-09.txt |awk -F' |:' '{print $1,$5,$10}'

這裡寫圖片描述

使用BEGIN設定分隔符，替代-F引數，顯得更高大上一點
然後儘量以格式化的方法寫命令：

head tomcat8_access.log.2018-05-09.txt |\
awk 'BEGIN{FS=" |:"}
          {c1s[$1]++;c5s[$5]++;c10s[$10]++;
           c1_5s[$1":"$5]++;c1_10s[$1":"$10]++;c5_10s[$5":"$10]++
           c1_5_10s[$1":"$5":"$10]}
       END{for(c1 in c1s) {print c1,c1s[c1]}
           {print "\n\n"}
           for(c5 in c5s) {print c5,c5s[c5]}
           {print "\n\n"}
           for(c10 in c10s) {print c10,c10s[c10]}
           {print "\n\n"}
           for(c1_5 in c1_5s) {print c1_5,c1_5s[c1_5]}
           {print "\n\n"}
           for(c1_10 in c1_10s) {print c1_10,c1_10s[c1_10]}
           {print "\n\n"}
           for(c5_10 in c5_10s) {print c5_10,c5_10s[c5_10]}
           {print "\n\n"}
           for(c1_5_10 in c1_5_10s) {print c1_5_10,c1_5_10s[c1_5_10]}
           {print "\n\n"}
          }'

這裡寫圖片描述

head tomcat8_access.log.2018-05-09.txt |\
awk 'BEGIN{FS=" |:"}
          {c1s[$1]++;c5s[$5]++;c10s[$10]++;
           c1_5s[$1":"$5]++;c1_10s[$1":"$10]++;c5_10s[$5":"$10]++
           c1_5_10s[$1":"$5":"$10]}
       END{for(c1_5 in c1_5s)
             {split(c1_5,L1_5,":")
              printf("Col1: %s Col5: %s\n",L1_5[1],L1_5[2])}
           {print "\n\n"}
           for(c1_10 in c1_10s)
             {split(c1_10,L1_10,":")
              printf("Col1: %s Col10: %s\n",L1_10[1],L1_10[2])}
           {print "\n\n"}
           for(c5_10 in c5_10s)
             {split(c5_10,L5_10,":")
              printf("Col1: %s Col5: %s\n",L5_10[1],L5_10[2])}
           {print "\n\n"}           
           for(c1_5_10 in c1_5_10s)
             {split(c1_5_10,L1_5_10,":")
              printf("Col1: %s Col5: %s Col10: %s\n",L1_5_10[1],L1_5_10[2],L1_5_10[3])}
           {print "\n\n"}           
          }'

這裡寫圖片描述
剩下的就是根據維度展示的需求，for迴圈多層巢狀，if做等值判斷之後的列印操作了

公式化套用：

把常用的單維度和雙維度報表抽成公式，以便以後直接套用：

cat ...|\
awk 'BEGIN{FS="..."}
          {Colns[$n]++}
       END{for(Coln in Colns) print Coln,Colns[Coln]}'|\
sort -nk2|column -t

cat ...|\
awk 'BEGIN{FS="..."}
     {Colxs[$x]++;Colxys[$x":"$y]++}
     END{for(Colx in Colxs)
          {for(Colxy in Colxys)
            {
             split(Colxy,TEMP,":")
             if(TEMP[1]==Colx)
             print Colx,Colxs[Colx],Colxys[Colxy],TEMP[1],TEMP[2]
            }
          }
        }'|sort -nk2 -nrk4|column -t

[TOC]

使用awk生成access日誌多維度分析報表

原由：某天某專案網站被一些IP惡意DDOS，因為沒有賣運營商的流量清洗等等之類的防護服務，導致該專案無法訪問產生了三個處理需求：需要識別惡意IP進行封堵需要定位被攻擊的頁面查詢攻擊弱點需要定位攻擊頻繁的時段進行監控這三個需求

JMeter：生成漂亮的多維度的HTML報告

JMeter：生成漂亮的多維度的HTML報告我們做效能測試的時候會經常使用一些效能測試工具，我個人比較喜歡Jmeter這個工具，但是JMeter這個工具在生成測試報告方面一直有所欠缺。但是JMeter在3.0以後解決了這個問題。 JMeter3.0以後引入了Dashboard Report，用於生成HTML

Spark Streaming實戰對論壇網站動態行為pv，uv，註冊人數，跳出率的多維度分析，實時統計每天pv,uv的sparkStreaming結合redis結果存入mysql供前端展示

論壇資料執行程式碼自動生成，該生成的資料會作為Producer的方式傳送給Kafka，然後SparkStreaming程式會從Kafka中線上Pull到論壇或者網站的使用者線上行為資訊，進而進行多維度的線上分析資料格式如下： date：日期，格式為yyyy-MM-dd ti

什麼？多個體多維度分析效率能從3天壓縮到30分鐘？

在進行機器學習的時候，我們需要對單個體進行多維度分析，比如說在日誌審計系統，我們需要對每一個操作賬戶進行操作次數統計，總操作次數統計，方差，極值，中值，突變度等計算。有時，也要計算非工作時間的訪問，方差，極值，中值，突變度等資料。過去的做法是，讀取每一個賬戶的操作記錄，

記一次構建SaaS平臺專案失敗後的反思-技術VS產品哪個更重要-如何權衡-程式設計師職業生涯的自我批判與成長-業務型程式設計師的商業視角-多維度分析研發型企業管理之道

記一次構建SaaS平臺專案失敗後的反思前言：筆者從2017年起開始著手將公司現有的軟體系統改造成多租戶模式，以降低整

資料智慧之多維度分析系統的選型方法

##引言前文回顧：《資料智慧時代來臨：本質及技術體系要求》作為本系列的第一篇文章，概括性地闡述了對於資料智慧的理解以及推出了對

個推CTO深度解析資料智慧之多維度分析系統的選型方法

##引言前文回顧：《資料智慧時代來臨：本質及技術體系要求》作為本系列的第一篇文章，概括性地闡述了對於資料智慧的理解以及推出了對

潤乾報表多維分析功能

可直接閱讀原文：http://c.raqsoft.com.cn/article/1535678317741?r=alice 分析控制元件功能拖拽欄位首先從分析控制元件本身的功能入手——開啟分析頁面第一件事是做什麼呢？對啦，當然是要展示報表了~脫離敲打複雜的查詢語句，

關於“grep”、“awk”的伺服器日誌分析命令

1、檢視有多少IP awk '{print $1}' log_file|sort|uniq|wc -l 2、檢視某一個頁面被訪問的次數： grep "/index.php" log_file | wc -l 3、檢視每一個IP訪問了多少個頁面： awk '{++S[$

用於分析多維度地理資訊資料的動態的可視分析

一、論文介紹用於分析多維度地理資訊資料的動態的可視分析（Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data ）是Turkay, Cagatay， Slingsby

開源BI報表及OLAP多維分析平臺OPENI(二)—搭建Eclipse下的Openi開發環境

接著上節的demo來看如何在Eclipse下搭建Openi的開發及除錯環境. 一.下載openi-1.3.0-RELEASE-src 二.新建web project 在MyEclipse下新建web project:openi 1.openi-1.3.0-RELE

多程序log4j日誌丟失問題分析

二、原因追蹤：在 log4j 的 DailyRollingFileAppender 類中： Java程式碼 void rollOver() throws IOException { /* Compute filename, but only if datePattern is

大數據量多維分析項目Kylin調研二期

not creat aps trac 找到概念 cati lee shell命令一、 cube構建步驟登錄頁面創建Project 　　　　同步數據　　　　 1) 加載Hive表 2) 從同步的目錄中導入，即將上張圖中左側

web項目log日誌查看分析->流程理解

ont lan hand isp agg dispatch port dto web 1.DEBUG [2017-07-10 11:38:41,705][] org.springframework.web.servlet.DispatcherServlet:865 - Di

使用awk統nginx日誌文件ip訪問站點次數

nginx web ip次數 awk | 表示分隔符，$4表示第四列awk -F"|" ‘{count[$4]++}END{for (ip in count) {printf "%-20s:%d\n",ip,count[ip]}}‘ access_log本文出自 “Linux 系統運維” 博

nginx web日誌介紹和分析

nginx 日誌 nginx web日誌介紹和分析Nginx訪問日誌打印的格式可以自定義，例如Nginx日誌打印格式配置如下，Log_format 用來設置日誌格式，Name(模塊名) Type(日誌類型)，可以配置多個日誌模塊，分別供不同的虛擬主機日誌記錄所調用：log_formatlog_form

自定制jmeter多維度報告-華山

jmeter 性能測試一.為什麽談這個新特性在JMeter3.0之前，官方只提供在工具的UI上對測試結果部分維度的圖形化展示，這對我帶來了兩方面的困擾：在實際使用中，在平臺中集成JMeter後需要頁面展示TPS曲線，平均響應時間曲線等圖表時，需要我們手動操刀擺弄如Hightcharts/Echart

一行 Shell 通過 Nginx access 日誌實時統計單臺機器QPS

log else 一行實時 %d == nbsp qps 機器 # 實時統計 ## 方式一 tail -f access.log | awk -F ‘[‘ ‘{print $2}‘ | awk ‘BEGIN{key="";count=0}{if(key==$1)

為什麽Spring Boot推薦使用logback-spring.xml來替代logback.xml來配置logback日誌的問題分析

ring ack 解決為什麽 5.7 net feature release href 最根本的原因：即，logback.xml加載早於application.properties，所以如果你在logback.xml使用了變量時，而恰好這個變量是寫在applica

JMeter性能測試3.0時代之-多維度的圖形化HTML報告

emp 監聽器平臺 spa destroy nature 更多 b- pla 在上一篇博客JMeter性能測試3.0時代之-全新JMeter插件管理中我說會寫真正的JMeter 3.0新特性，時隔兩周，總算在這個周末，暫停其他安排，來繼續這個未完成的系列。本

使用awk生成access日誌多維度分析報表

原由：

測試資料：

識別惡意IP：

定位被攻擊的頁面：

定位攻擊頻繁的時段：

公式化套用：

相關推薦