日誌採集框架Flume

阿新 • • 發佈：2018-12-13

在一個完整的大資料處理系統中，除了hdfs+mapreduce+hive組成分析系統的核心之外，還需要資料採集、結果資料匯出、任務排程等不可或缺的輔助系統，而這些輔助工具在hadoop生態體系中都有便捷的開源框架，如圖所示：

1、Flume介紹

1.1、概述

Flume是一個分散式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統。
Flume可以採集檔案，socket資料包等各種形式源資料，又可以將採集到的資料輸出到HDFS、hbase、hive、kafka等眾多外部儲存系統中
一般的採集需求，通過對flume的簡單配置即可實現
Flume針對特殊場景也具備良好的自定義擴充套件能力，因此，flume可以適用於大部分的日常資料採集場景

1.2、執行機制

Flume分散式系統中最核心的角色是agent，flume採集系統就是由一個個agent所連線起來形成
每一個agent相當於一個資料傳遞員[M1] ，內部有三個元件：
1. 1. Source：採集源，用於跟資料來源對接，以獲取資料
  2. Sink：下沉地，採集資料的傳送目的，用於往下一級agent傳遞資料或者往最終儲存系統傳遞資料
  3. Channel：angent內部的資料傳輸通道，用於從source將資料傳遞到sink

1.3、Flume採集系統結構圖

1. 簡單結構

單個agent採集資料

2. 複雜結構

多級agent之間串聯

2、Flume實戰案例

2.1 Flume的安裝部署

Flume的安裝非常簡單，只需要解壓即可，當然，前提是已有hadoop環境上傳安裝包到資料來源所在節點上然後解壓 tar -zxvf apache-flume-1.8.0-bin.tar.gz然後進入flume的目錄，修改conf下的flume-env.sh，在裡面配置JAVA_HOME
根據資料採集的需求配置採集方案，描述在配置檔案中(檔名可任意自定義)
指定採集方案配置檔案，在相應的節點上啟動flume agent

先用一個最簡單的例子來測試一下程式環境是否正常

1、先在flume的conf目錄下新建一個檔案

vi netcat-logger.conf

# 定義這個agent中各元件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 描述和配置source元件：r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# 描述和配置sink元件：k1
a1.sinks.k1.type = logger

# 描述和配置channel元件，此處使用是記憶體快取的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 描述和配置source  channel   sink之間的連線關係
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2、啟動agent去採集資料

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置檔案所在目錄

-f conf/netcat-logger.con 指定我們所描述的採集方案

-n a1 指定我們這個agent的名字

3、測試

先要往agent採集監聽的埠上傳送資料，讓agent有資料可採，隨便在一個能跟agent節點聯網的機器上

telnet anget-hostname port （telnet localhost 44444）

2.2、採集案例

1、採集目錄到HDFS

採集需求：某伺服器的某特定目錄下，會不斷產生新的檔案，每當有新檔案出現，就需要把檔案採集到HDFS中去

根據需求，首先定義以下3大要素

採集源，即source——監控檔案目錄 : spooldir
下沉目標，即sink——HDFS檔案系統 : hdfs sink
source和sink之間的傳遞通道——channel，可用file channel 也可以用記憶體channel

配置檔案編寫：

#定義三大元件的名稱
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# 配置source元件
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /home/hadoop/logs/
agent1.sources.source1.fileHeader = false

#配置攔截器
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname

# 配置sink元件
agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M
agent1.sinks.sink1.hdfs.filePrefix = access_log
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
#agent1.sinks.sink1.hdfs.round = true
#agent1.sinks.sink1.hdfs.roundValue = 10
#agent1.sinks.sink1.hdfs.roundUnit = minute
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true
# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600
# Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

Channel引數解釋：

capacity：預設該通道中最大的可以儲存的event數量

trasactionCapacity：每次最大可以從source中拿到或者送到sink中的event數量

keep-alive：event新增到通道中或者移出的允許時間

2、採集檔案到HDFS

採集需求：比如業務系統使用log4j生成的日誌，日誌內容不斷增加，需要把追加到日誌檔案中的資料實時採集到hdfs

根據需求，首先定義以下3大要素

採集源，即source——監控檔案內容更新 : exec ‘tail -F file’
下沉目標，即sink——HDFS檔案系統 : hdfs sink
Source和sink之間的傳遞通道——channel，可用file channel 也可以用記憶體channel

配置檔案編寫：

agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1
# Describe/configure tail -F source1
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /home/hadoop/logs/access_log
agent1.sources.source1.channels = channel1
#configure host for source
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname
# Describe sink1
agent1.sinks.sink1.type = hdfs
#a1.sinks.k1.channel = c1
agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M
agent1.sinks.sink1.hdfs.filePrefix = access_log
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
agent1.sinks.sink1.hdfs.round = true
agent1.sinks.sink1.hdfs.roundValue = 10
agent1.sinks.sink1.hdfs.roundUnit = minute
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true
# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600
# Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

1.3 更多source和sink元件

Flume支援眾多的source和sink型別，詳細手冊可參考官方文件

Source 到 Channel 到 Sink之間傳遞資料的形式是Event事件；Event事件是一個數據流單元。

日誌採集框架Flume

在一個完整的大資料處理系統中，除了hdfs+mapreduce+hive組成分析系統的核心之外，還需要資料採集、結果資料匯出、任務排程等不可或缺的輔助系統，而這些輔助工具在hadoop生態體系中都有便捷的開源框架，如圖所示： 1、Flume介紹 1.1、概述 Flu

分散式日誌收集框架Flume:從指定網埠採集資料輸出到控制檯

A)配置Source B)配置Channel C)配置Sink D)把以上三個元件串起來變數： a1:agent名稱r1:source的名稱k1:sink的名稱c1:channel的名稱 #以下為配

日誌收集框架 Flume 組件之Source使用

exp component imm 更新作用多少收集 under onf 上一篇簡單介紹了Flume幾個組件，今天介紹下組件其一的source，整理這些，也是二次學習的過程，也是梳理知識的過程。 Source 中文譯為來源，源作用：采集數據，然後把數據傳輸到chann

分散式日誌收集框架flume實戰

實戰一：從指定網路埠採集資料輸出到控制檯 flume框架架構 Source：指定資料來源，有NetCat TCP（專案用到），kafka，JMS，Avro，Syslog等等 Channel：資料管道，有Kafka，Memory，File等等 Sink：日誌資料存放，有Avro，HBa

分散式日誌收集框架Flume

文章目錄 Flume概述 Flume架構及核心元件 Flume&JDK環境部署 Flume實戰案例一 Flume實戰案例二 Flume實戰案例三(重點掌握) 業務現狀：公司有Hadoop

日誌採集系統flume和kafka有什麼區別及聯絡？

日誌採集系統flume和kafka有什麼區別及聯絡，它們分別在什麼時候使用，什麼時候又可以結合？觀點一：簡言之：這兩個差別很大，使用場景區別也很大。先說flume：日誌採集。線上資料一般主要是落地檔案或者通過socket傳輸給另外一個系統。這種情況下，你很難推動線上應用或服務去修改介

分散式日誌收集框架Flume環境部署

最近在做一個基於Spark Streaming的實時流處理專案，之間用到了Flume來收集日誌資訊，所以在這裡總結一下Flume的用法及原理． Flume是一個分散式、高可靠、高可用、負載均衡的進行大量

大資料實時日誌收集框架Flume案例之抽取日誌檔案到HDFS

上節介紹了Flume的作用以及如何使用，本文主要通過一個簡單的案例來更好地運用Flume框架。在實際開發中，我們有時需要實時抽取一些資料夾下的檔案來分析，比如今天的日誌檔案需要抽取出來做分析。這時，如何自動實時的抽取每天的日誌檔案呢？我們可以使用Flume來完成

分散式日誌收集框架 Flume

1 需求分析 WebServer/ApplicationServer分散在各個機器上，然而我們依舊想在Hadoop平臺上進行統計

日誌采集框架Flume

transacti 單元 table 需求解壓數據傳輸取數據 event 事件概述 Flume是一個分布式、可靠、和高可用的海量日誌采集、聚合和傳輸的系統。 Flume可以采集文件，socket數據包等各種形式源數據，又可以將采集到的數據輸出到HDFS、hb

微服務框架（十三）Spring Boot Logstash日誌採集

　　此係列文章將會描述Java框架Spring Boot、服務治理框架Dubbo、應用容器引擎Docker，及使用Spring Boot整合Dubbo、Mybatis等開源框架，其中穿插著Spring Boot中日誌切面等技術的實現，然後通過gitlab-CI以持續整合為Docker映

Spark Streaming實時流處理筆記（3）——日誌採集Flume

1 Flume介紹 1.1 設計目標可靠性擴充套件性管理性 1.2 同類產品 Flume: Cloudera/Apache,Java Scribe: Facebook ,C/C++(不維護了) Chukwa: Yahoo

大資料技術學習筆記之網站流量日誌分析專案：Flume日誌採集系統1

一、網站日誌流量專案 -》專案開發階段： -》可行性分析 -》需求分析

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

概述大資料平臺每天會產生大量的日誌，處理這些日誌需要特定的日誌系統。一般而言，這些系統需要具有以下特徵：構建應用系統和分析系統的橋樑，並將它們之間的關聯解耦；支援近實時的線上分析系統和類似於Hadoop之類的離線分析系統；具有高可擴充套件性。即：當資料量增加時，可以通過增加節點

flume 1.6 安裝及配置日誌採集配置

1.下載flume1.6 2.安裝jdk和Hadoop 具體參照以前wen'文章 3.flume 配置檔案修改修改conf目錄下的flume-env.sh檔案 export JA

Flume日誌採集系統與Logstash對比

本文就從如下的幾個方面講述下我的使用心得：初體驗——與Logstash的對比安裝部署啟動教程引數與例項分析 Flume初體驗 Flume的配置是真繁瑣，source，channel，sink的關係在配置檔案裡面交織在一起，沒有Logstash那麼簡單明瞭。

大資料之 Flume 日誌收集框架入門

&nb

基於Flume+Log4j+Kafka的日誌採集架構方案

Flume 基本概念 Flume是一個完善、強大的日誌採集工具，關於它的配置，在網上有很多現成的例子和資料，這裡僅做簡單說明不再詳細贅述。 Flume包含Source、Channel、Sink三個最基本的概念： Source——日誌來源，其中包括：Avro Source、

大資料日誌檔案實時收集框架Flume介紹及其使用

大資料中，我們經常會將一些日誌檔案收集分析，比如網站的日誌檔案等等，我們需要一個工具收集資料並且上傳到HDFS,HIVE,HBASE等大資料倉庫中，Apache為我們提供了一個很好的檔案實時收集框架供我們使用。一、Flume的介紹官網的介紹如下：

flume + kafka 日誌採集

將系統產生日誌資訊通過flume採集，推送至kafka進行消費處理架構圖服務 ip port 備註 flume collectors 10.200.132.181 6333 flume collectors flum

日誌採集框架Flume

1、Flume介紹

1.1、概述

1.2、執行機制

1.3、Flume採集系統結構圖

2、Flume實戰案例

2.1 Flume的安裝部署

2.2、採集案例

1.3 更多source和sink元件

相關推薦