flume自定義interceptor和hbase sink

阿新 • • 發佈：2019-01-01

在flume的實際應用中，可能會遇到對日誌進行簡單的過濾和處理。flume在source端有其內建的interceptor類可以對主機、IP、靜態標記做處理，如果想自定義處理邏輯該如何處理？在不規則的日誌資料進入hbase之前想做處理又該如何處理？

1.自定義source

在eclipse（或Myeclipse）中，引入flume的jar包（下載flume解壓後的lib目錄中），編寫自定義類，實現Interceptor類，重寫public Event intercept(Event event) 和

<pre name="code" class="java"><span style="font-family:Microsoft YaHei;">public List<Event> intercept(List<Event> events)，其中在第一個方法裡編寫自己的處理邏輯，日誌資料是位元組陣列形式存在body裡的，要處理日誌資料，需要先將其轉化</span>

<span style="font-family:Microsoft YaHei;">為字串。後一個方法是批量處理event，其實就是呼叫前一個方法，最後一段程式碼是例項化你編寫的類。完整原始碼如下：</span>

<span style="font-family:Microsoft YaHei;">import java.util.List;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import com.google.common.base.Charsets;
import com.google.common.collect.Lists;

public class AccessLogInterceptor implements Interceptor {

	@Override
	public void close() {
		// TODO Auto-generated method stub

	}

	@Override
	public void initialize() {
		// TODO Auto-generated method stub

	}

	@Override
	public Event intercept(Event event) {
		// TODO Auto-generated method stub
		StringBuffer sb = new StringBuffer();
		String body = new String(event.getBody(), Charsets.UTF_8);
		String[] fields = body.split("|");
		int i = 1;
		for (String field : fields) {
			sb.append(i + field);
			i++;
		}
		event.setBody(sb.toString().getBytes());
		return event;
	}

	@Override
	public List<Event> intercept(List<Event> events) {
		// TODO Auto-generated method stub
		List<Event> intercepted = Lists.newArrayListWithCapacity(events.size());
		for (Event event : events) {
			Event interceptedEvent = intercept(event);
			if (interceptedEvent != null) {
				intercepted.add(interceptedEvent);
			}
		}
		return intercepted;
	}

	public static class Builder implements Interceptor.Builder {
		// 使用Builder初始化Interceptor
		@Override
		public Interceptor build() {
			return new AccessLogInterceptor();
		}

		@Override
		public void configure(Context context) {

		}
	}

}</span>

編寫完成後，將程式碼打包如下圖所示：

上傳到flume的lib目錄下：

修改配置檔案client.properties.properties(我的flume配置檔名，參照自己的配置檔案修改)：

啟動你的flume就OK了。

2.自定義hbase sink

要對進如hbase的日誌做預處理，以便於使用和檢視。在上述的工程中新建立一個包，在其中編寫處理類。原始碼如下：

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.List;
import java.util.Locale;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.conf.ComponentConfiguration;
import org.apache.flume.sink.hbase.AsyncHbaseEventSerializer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.log4j.Logger;
import org.hbase.async.AtomicIncrementRequest;
import org.hbase.async.PutRequest;

public class AsyncHbaseLogEventSerializer implements AsyncHbaseEventSerializer {
	private byte[] table;
	private byte[] colFam;
	private byte[][] columnNames;
	private Event currentEvent;
	private final List<PutRequest> puts = new ArrayList<PutRequest>();
	private final List<AtomicIncrementRequest> incs = new ArrayList<AtomicIncrementRequest>();
	private byte[] currentRowKey;
	private final byte[] eventCountCol = "eventCount".getBytes();
	private static Logger log = Logger.getLogger(AsyncHbaseLogEventSerializer.class);

	//初始化工作
	@Override
	public void initialize(byte[] table, byte[] cf) {
		// TODO Auto-generated method stub
		this.table = table;
		this.colFam = cf;
	}

	//讀取flume配置檔案內容，包括列名，rowkey字尾等資訊
	@Override
	public void configure(Context context) {
		// TODO Auto-generated method stub
		String cols = new String(context.getString("columns"));
		String[] names = cols.split(",");
		columnNames = new byte[names.length][];
		int i = 0;
		for (String name : names) {
			log.info("列名是:"+name);
			columnNames[i++] = name.getBytes();
		}
	}

	@Override
	public List<PutRequest> getActions() {
		// TODO Auto-generated method stub
		// Split the event body and get the values for the columns
		String eventStr = new String(currentEvent.getBody());
		String[] cols = logTokenize(eventStr);
		puts.clear();
		String req = cols[4];
		String reqPath = req.split(" ")[1];
		int pos = reqPath.indexOf("?");
		if (pos > 0) {
			reqPath = reqPath.substring(0, pos);
		}
		if (reqPath.length() > 1 && reqPath.trim().endsWith("/")) {
			reqPath = reqPath.substring(0, reqPath.length() - 1);
		}
		String req_ts_str = cols[3];
		Long currTime = System.currentTimeMillis();
		String currTimeStr = null;
		if (req_ts_str != null && !req_ts_str.equals("")) {
			SimpleDateFormat df = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss",
					Locale.US);
			SimpleDateFormat df2 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
			try {
				currTimeStr = df2.format(df.parse(req_ts_str));
				currTime = df.parse(req_ts_str).getTime();
			} catch (ParseException e) {
				System.out
						.println("parse req time error,using system.current time.");
			}
		}

		long revTs = Long.MAX_VALUE - currTime;
		currentRowKey = (Long.toString(revTs) + reqPath).getBytes();
		System.out.println("currentRowKey: " + new String(currentRowKey));
		for (int i = 0; i < cols.length; i++) {
			PutRequest putReq = new PutRequest(table, currentRowKey, colFam,
					columnNames[i], cols[i].getBytes());
			puts.add(putReq);
		}

		// 增加列
		PutRequest reqPathPutReq = new PutRequest(table, currentRowKey, colFam,
				"req_path".getBytes(), reqPath.getBytes());
		puts.add(reqPathPutReq);
		PutRequest reqTsPutReq = new PutRequest(table, currentRowKey, colFam,
				"req_ts".getBytes(), Bytes.toBytes(currTimeStr));
		puts.add(reqTsPutReq);
		//String channelType = ChannelUtil.getType(cols[8]);
		String channelType = "abc";
		PutRequest channelPutReq = new PutRequest(table, currentRowKey, colFam,
				"req_chan".getBytes(), Bytes.toBytes(channelType));
		puts.add(channelPutReq);
		return puts;
	}

	@Override
	public List<AtomicIncrementRequest> getIncrements() {
		// TODO Auto-generated method stub
		incs.clear();
		incs.add(new AtomicIncrementRequest(table, "totalEvents".getBytes(),
				colFam, eventCountCol));
		return incs;
	}

	@Override
	public void setEvent(Event event) {
		// TODO Auto-generated method stub
		this.currentEvent = event;

	}

	@Override
	public void configure(ComponentConfiguration arg0) {
		// TODO Auto-generated method stub

	}

	@Override
	public void cleanUp() {
		// TODO Auto-generated method stub
		table = null;
		colFam = null;
		currentEvent = null;
		columnNames = null;
		currentRowKey = null;
	}

	public String[] logTokenize(String eventStr) {
		String logEntryPattern = "^([\\d.]+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4})\\] \"(.+?)\" (\\d{3}) (\\d+|-) \"([^\"]+)\" \"([^\"]+)\"";
		Pattern p = Pattern.compile(logEntryPattern);
		Matcher matcher = p.matcher(eventStr);
		if (!matcher.matches()) {
			System.err.println("Bad log entry (or problem with RE?):");
			System.err.println(eventStr);
			return null;
		}
		String[] columns = new String[matcher.groupCount()];
		for (int i = 0; i < matcher.groupCount(); i++)
		{
			columns[i] = matcher.group(i + 1);
		}
		return columns;
	}
}

打包放入到lib目錄下（同上），配置檔案如下：

重啟flume即可。

flume自定義interceptor和hbase sink

在flume的實際應用中，可能會遇到對日誌進行簡單的過濾和處理。flume在source端有其內建的interceptor類可以對主機、IP、靜態標記做處理，如果想自定義處理邏輯該如何處理？在不規則的日誌資料進入hbase之前想做處理又該如何處理？ 1.自定義

flume自定義Interceptor的UUID和其他邏輯處理

package com.meme.flume.interceptor; import com.google.common.base.Charsets; import org.apache.flume.Context; import org.apache.flume.Even

Flume自定義Source、Sink和Interceptor(簡單功能實現)

next generated lose 指定 char atomic -i 根據進行　　1.Event　　　　event是flume傳輸的最小對象，從source獲取數據後會先封裝成event，然後將event發送到channel，sink從channel拿event消

flume自定義攔截器(Interceptor)拼接header和body資訊

一、需求背景最近專案有這樣一個需求，分別採集不同應用不同機器上的日誌，在做日誌清洗後存入DB，資料庫表字段需要存當前日誌的來源，比如，來自於哪個專案，該專案的哪臺機器，由於我們使用的是flume來做日誌採集，故去翻flume的官網，發現有攔截器可以支援我的需求，

Flume自定義Sink到MySQL資料庫

package com.yimen.data.flume.sink; import com.alibaba.fastjson.JSON; import com.google.common.base.Preconditions; import com.google.common.base

記錄-----自定義interceptor，解決flume監控日誌上傳HDFS日期後移一天問題

1.自定義flume的interceptor新增自定義header package com.huajie.flume.interceptor.custominterceptor; import com.google.common.collect.Lists; impor

flume 自定義kafka sink執行失敗：找不到Callback

官網和github上都提供了原始碼，藉助提供的kafkasink程式碼，在其中增加分割槽邏輯，實現flume讀取日誌並按特定規則輸入到kafka的不同分割槽，maven匯出jar包執行時報如下錯誤

flume 自定義Sink之kafkaSink

在flume1.5.2中沒有kafkasink,需要自定義KafkaSink 在fluem-1.6.0中提供了kafkasink kafkaSink就是將Channel中的輸出通過sink寫到kafka，所有kafka相當與一個生產者的功能

SpringBoot 自定義filter 和 interceptor，自定義靜態檔案存放位置

上篇分享我們已經有了一個最基礎具有登陸驗證功能的SpringBoot web專案，本篇對照之前SpringMVC 的xml配置，闡述SpringBoot 中的filter 和 interceptor。一、web.xml中的filter 和 SpringBo

flume自定義sink source

@Overridepublic Status process() throws EventDeliveryException {Status status = null;Channel ch = getChannel();Transaction txn = ch.getTransaction(); //fl

freemarker實現自定義指令和自定義函數

數據 dir variables macro 內置引擎 eem fig turn 自定義指令： 1.指令在前臺實現　　<#macro name param1,param2,param3...paramN> 　　</#macro> 2.指令在後臺實

18)django-模板的過濾器和tag，自定義simple_tag和filter

hello 直接結果 from simple 使用 span 裝飾 san 模板過濾器是在變量被顯示前修改它的值的一個簡單方法。過濾器使用管道字符 . 模板標簽(template tag) 。標簽(tag)定義比較明確，即：僅通知模板系統完成某些工作的標簽。一：d

IntelliJ IDEA如何設置頭註釋，自定義author和date

技術分享 spa 分享圖片 es2017 log tel auth bsp image 下面這張圖，保證你一看就會：下面這個模板，你拿去改一改就行了。 1 /** 2 * @Author: Gosin 3 * @Date: ${DATE} ${TIME} 4 */

使用自定義註解和反射，自動生成查詢語句

runt entity forname == rop ava stat pri string 1.自定義表名註解 package com.lf.annotation; import java.lang.annotation.ElementType; import jav

SSH開發 | 配合自定義註解和 Stratus攔截器，實現方法級粒度用戶鑒權

struts OS action gin 所有具體實現 getmethod red nal 1.提要　　本文是小小商城-SSH版的細節詳解系列之一，項目 github：https://github.com/xenv/S-mall-ssh 本文代碼大部分在 gith

Vue自定義指令和路由

class 在哪裏 lan tps 定時簡單的 cdn 可用 string 一、自定義指令　　除了默認設置的核心指令( v-model 和 v-show )， Vue 也允許註冊自定義指令。　　下面我們註冊一個全局指令 v-focus，該指令的功能是在頁面加載時，元素

Lucene 7.2.1 自定義Analyzer和TokenFilter

oge close protect .get one AC put stand hash 1.自定義Analyzer: import com.dys.lucene.filter.SameWordTokenFilter; import org.apache.lucene.a

Django(模板語言-自定義filter和simple_tag)

() span return class 之前當前無法就是必須 filter過濾器的主要形式：變量|函數,意思是將變量交給函數處理，而自定義filter就是自己定義函數，因為用到已有的很少。 a.在app中創建templatetags模塊（必須的） b.在tem

在Azure中搭建Ghost博客並綁定自定義域名和HTTPS

ref 完成 ros png 探索定義域是我選擇配置dns 緒論之前一直使用cnblog寫博客，現在將博客遷移至Microsoft Azure上的Ghost博客上，Ghost博客使用Markdown書寫博客，頁面簡潔，是我喜歡的風格。具體參見官網：https:/

python自定義異常和主動拋出異常

clas 如何 pri 就是 int 異常類繼承 def try python自定義異常和主動拋出異常 #知識點：如何自定義類 class MyException(Exception): #讓MyException類繼承Excepti

flume自定義interceptor和hbase sink

相關推薦