使用flume+hive採集Web伺服器的access日誌

阿新 • • 發佈：2019-01-06

1、配置伺服器格式

博主這裡用的是tomcat的combined預設格式，格式如下

127.0.0.1 - - [28/Mar/2017:09:23:10 +0800] "GET /manager/html HTTP/1.1" 401 2536 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"

2、進入hive shell來建立表

使用正則法則來匹配日誌格式

CREATE TABLE td_log_analyze(  
  host STRING,  
  identity STRING,  
  usr STRING,  
  time STRING,  
  request STRING,  
  status STRING,  
  size STRING,  
  referer STRING,  
  agent STRING) 
  
partitioned by (dt string)  
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
WITH SERDEPROPERTIES (  
  "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",  
  "output.format.string" 
 = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"  
)  
STORED AS TEXTFILE;

3、配置flume-agent

#定義agent名， source、channel、sink的名稱  
logAnalyzeAG.sources = s1  
logAnalyzeAG.channels = c1  
logAnalyzeAG.sinks = k1  
#具體定義source  
logAnalyzeAG.sources.s1.type = spooldir  
logAnalyzeAG.sources.s1.spoolDir = /home/data/tomcat/tomcat-8081 
/logs/access
#設定快取提交行數  
logAnalyzeAG.sources.s1.deserializer.maxLineLength =1048576  
logAnalyzeAG.sources.s5.fileSuffix =.FINISH
logAnalyzeAG.sources.s5.ignorePattern=^localhost_access_log\.txt$
logAnalyzeAG.sources.s1.consumeOrder = oldest  
logAnalyzeAG.sources.s1.deserializer = org.apache.flume.sink.solr.morphline.BlobDeserializer$Builder  
logAnalyzeAG.sources.s1.batchsize = 5  
#定義攔截器，為訊息新增時間戳  
#logAnalyzeAG.sources.r1.interceptors = i1  
#logAnalyzeAG.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder  
#具體定義channel  
logAnalyzeAG.channels.c1.type = memory  
logAnalyzeAG.channels.c1.capacity = 10000  
logAnalyzeAG.channels.c1.transactionCapacity = 100  
#具體定義sink  
logAnalyzeAG.sinks.k1.type = hdfs  
#%y-%m-%d/%H%M/%S  
#這裡對應就是hive 表的目錄 此處如果是外部表，則直接對應你的localtion地址，如果普通則對應到你的hive表目錄即可  
logAnalyzeAG.sinks.k1.hdfs.path = hdfs://172.16.38.159:8020/apps/hive/warehouse/log_data.db/td_log_analyze/%Y-%m-%d  
logAnalyzeAG.sinks.k1.hdfs.filePrefix = log-%Y-%m-%d  
logAnalyzeAG.sinks.k1.hdfs.fileSuffix = .log  
logAnalyzeAG.sinks.k1.hdfs.fileType = DataStream  
#不按照條數生成檔案  
logAnalyzeAG.sinks.k1.hdfs.rollCount = 0  
#HDFS上的檔案達到128M時生成一個檔案  
logAnalyzeAG.sinks.k1.hdfs.rollSize = 2914560  
#HDFS上的檔案達到60秒生成一個檔案  
#logAnalyzeAG.sinks.k1.hdfs.rollInterval = 60  
logAnalyzeAG.sinks.k1.hdfs.useLocalTimeStamp = true  
#組裝source、channel、sink  
logAnalyzeAG.sources.s1.channels = c1  
logAnalyzeAG.sinks.k1.channel = c1

PS：採用spoolDir來採集是檔案級別的，即掃描新增檔案。實時增量可以採用tailDir。上面的配置檔案會過濾掉當天列印的檔案localhost_access_log.txt。

4、因為對日誌進行的分割槽存放，所以要想將hive表對應指定分割槽需要建立hive 分割槽

ALTER TABLE td_log_analyze ADD IF NOT EXISTS PARTITION (dt='2017-03-29') LOCATION '/apps/hive/warehouse/log_data.db/td_log_analyze/2017-03-29/';

注意，需要先建立分割槽，再採集資料到hdfs，hive才能識別到資料

5、編寫shell指令碼，每天建立第二天的hive分割槽

#!/bin/bash
#獲取明天的日期
day=$(date --date='1 days' +%Y-%m-%d)
cd /home/
touch log.sql
#為明天預新增hive分割槽
echo "ALTER TABLE td_log_analyze ADD IF NOT EXISTS PARTITION (dt='${day}') LOCATION '/apps/hive/warehouse/log_data.db/td_log_analyze/${day}/';" > /home/log.sql
beeline -u 'jdbc:hive2://node0.hdp:2181,node2.hdp:2181,node1.hdp:2181/log_data;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2' -f '/home/log.sql'

6、設定定時任務（centos）

crontab -e

新增任務資訊，每天凌晨兩點執行

0 2 * * * /home/shell-test/hive-partitions.sh

重新載入配置

service crond reload

PS：附上tomcat日誌格式的配置方法

在tomcat的server.xml檔案中，host主機配置區域找到類似如下即為訪問日誌的配置：              unpackWARs="true" autoDeploy="true">
                       prefix="localhost_access_log." suffix=".txt"
               pattern="%h %l %u %t "%r" %s %b" />
      其中的directory用於指定日誌的存放路徑，預設位於tomcat的logs目錄中，例如我們可以修改成： directory="c:/wwwlogs" 使日誌放到c:\wwwlogs目錄中去。其中的prefix和suffic分別用於指定日誌檔案的字首和字尾，不用我多說。現在我們主要來看一下pattern配置段，它用於指定日誌的輸出格式。有效的日誌格式模式可以參見下面內容，如下字串，其對應的資訊由指定的響應內容取代：

    ％a - 遠端IP地址
    ％A - 本地IP地址
    ％b - 傳送的位元組數，不包括HTTP頭，或“ - ”如果沒有傳送位元組
    ％B - 傳送的位元組數，不包括HTTP頭
    ％h - 遠端主機名
    ％H - 請求協議
    ％l (小寫的L)- 遠端邏輯從identd的使用者名稱（總是返回' - '）
    ％m - 請求方法
    ％p - 本地埠
    ％q - 查詢字串（在前面加上一個“？”如果它存在，否則是一個空字串
    ％r - 第一行的要求
    ％s - 響應的HTTP狀態程式碼
    ％S - 使用者會話ID
    ％t - 日期和時間，在通用日誌格式     ％u - 遠端使用者身份驗證
    ％U - 請求的URL路徑
    ％v - 本地伺服器名
    ％D - 處理請求的時間（以毫秒為單位）
    ％T - 處理請求的時間（以秒為單位）
    ％I （大寫的i） - 當前請求的執行緒名稱

此外，您可以指定以下別名來設定為普遍使用的模式之一：
    common - %h %l %u %t "%r" %s %b
    combined - %h %l %u %t "%r" %s %b "%{Referer}i" "%{User-Agent}i"

另外，還可以將request請求的查詢引數、session會話變數值、cookie值或HTTP請求/響應頭內容的變數值等內容寫入到日誌檔案。
它仿照了apache的語法：

    ％{XXX}i xxx代表傳入的頭(HTTP Request)     ％{XXX}o xxx代表傳出的響應頭(Http Resonse)
    ％{XXX}c xxx代表特定的Cookie名
    ％{XXX}r xxx代表ServletRequest屬性名   ％{XXX}s xxx代表HttpSession中的屬性名

使用flume+hive採集Web伺服器的access日誌

使用flume+hive採集Web伺服器的access日誌

基於AIX系統的應用日誌採集-Logstash伺服器端和客戶端配置

技本功丨web伺服器日誌自動解析工具不是唯一的工具，但卻承包了我最深沉的愛！

flume 1.6 安裝及配置日誌採集配置

Flume各種採集日誌方式與輸出目錄

Flume+HBase採集和儲存日誌資料

centos7 搭建rsyslog日誌伺服器，收集web伺服器日誌

帶你看懂大資料採集引擎之Flume&採集目錄中的日誌

將web伺服器日誌檔案中的IP地址轉換為主機名

flume使用之flume+hive 實現日誌離線收集、分析

資料採集之Web端匯入日誌檔案到Hadoop HDFS

大資料技術應用(一) 應用Flume+HBase採集和儲存日誌資料

Apache Flume 1.9.0 釋出，日誌伺服器

flume+hive處理日誌

Apache Web伺服器日誌格式

Web伺服器免費開源日誌分析工具和行為分析工具

如何檢視Web伺服器日誌

輕量web伺服器開發日記09-日誌檔案的實現

Apache伺服器訪問日誌access.log中各項資料的具體解釋

金笛web中間件日誌記錄如何清空

使用flume+hive採集Web伺服器的access日誌

相關推薦