Kafka與Flume和HDFS整合應用之日誌採集系統專案

阿新 • • 發佈：2021-01-03

技術標籤：kafka flume hadoop hadoop flume 大資料 kafka zookeeper

文章目錄

前言
專案需求
一、Flume採集日誌寫入Kafka
二、Flume採集Kafka訊息寫入HDFS
三、啟動Flume NG和Kafka驗證
總結

前言

Flume 是一個連線各種元件和系統的橋樑，在$FLUME_HOME/lib 目錄下有Flume與HBase、HDFS等整合的 jar檔案，可以很方便地與HBase和HDFS連線。在實際業務中，我們一般通過Flume 從應用程式實時採集資料寫入到Kafka，而將歷史資料通過Flume 匯入到HDFS以用於離線分析計算。當然，我們也可以通過Flume從Kafka將資料寫入到HBase和HDFS。

下面我將為大家介紹如何使用Flume快速消費Kafka Topic資料，然後將消費後的資料實時轉發到HDFS上。

專案需求

使用Flume實時採集資料寫入Kafka主題中，並持久化到本地磁碟，然後通過Flume消費主題訊息，並實時寫入到HDFS，供開發人員進行離線分析計算。

一、Flume採集日誌寫入Kafka

建立一個flume-kafka.properties檔案，寫入相關配置如下。
首先指定源、接收器和通道的名稱，配置如下：

agent.sources = sc #指定源名稱
agent.sinks = sk #指定接收器名稱
agent.channels = chl #指定通道名稱

1.Source配置

agent.sources.sc.type = exec #指定源型別為linux命令
agent.sources.sc.channels = chl #繫結通道，指定源將事件傳遞的通道，可以指定多個通道
agent.sources.sc.command = tail -f /opt/flume/test.log #以tail命令開啟檔案輸出流
agent.sources.sc.fileHeader = false #指定事件不包括頭資訊

2.Sinks配置

#接收器型別
agent.sinks.sk.type = org.apache.flume.sink.kafka. 
KafkaSink
#繫結通道，指定接收器讀取資料的通道
agent.sinks.sk.channel = chl
agent.sinks.sk.kafka.bootstrap.servers = 172.20.10.3:9092,172.20.10.4:9092:172.20.10.5:9092
#指定寫入Kafka的主題
agent.sinks.sk.kafka.topic=flume-kafka
#指定序列化類
agent.sinks.sk.serializer.class=kafka.serializer.StringEncoder
#生產者acks方式
agent.sinks.sk.producer.acks = 1
#指定字元編碼
agent.sinks.sk.custom.encoding = UTF-8

3.Channel配置

agent.channels.chl.type = memory #指定通道型別
agent.channels.chl.capacity = 1000 #在通道中停留的最大事件數
agent.channels.chl.transactionCapacity = 1000 #每次從源拉取的事件數及給接收器的事件數

Flume安裝以及更詳細的請看我之前寫的：Flume採集日誌寫入Kafka

二、Flume採集Kafka訊息寫入HDFS

首先建立一個kafka2hdfs.properties檔案，並完成源、通道和接收器名稱的定義，配置資訊如下：

# source alias
agent.sources = source_from_kafka  
# channels alias
agent.channels = mem_channel  
# sink alias
agent.sinks = hdfs_sink

1.KafkaSource配置

程式碼如下：

# define kafka source
agent.sources.source_from_kafka.type = org.apache.flume.source.kafka.KafkaSource  
agent.sources.source_from_kafka.channels = mem_channel  
agent.sources.source_from_kafka.batchSize = 5000  

# set kafka broker address  
agent.sources.source_from_kafka.kafka.bootstrap.servers = hadoop2:9092,hadoop3:9092

# set kafka topic
agent.sources.source_from_kafka.kafka.topics = flume-kafka

# set kafka groupid
agent.sources.source_from_kafka.kafka.consumer.group.id = flume_test_id

2.KafkaSinks配置

程式碼如下：

# defind hdfs sink
agent.sinks.hdfs_sink.type = hdfs 

# specify the channel the sink should use  
agent.sinks.hdfs_sink.channel = mem_channel

# set store hdfs path
agent.sinks.hdfs_sink.hdfs.path = /data/flume/kafka/%Y-%m-%d/%H 

agent.sinks.hdfs_sink.hdfs.fileSuffix = .txt

# set file size to trigger roll
agent.sinks.hdfs_sink.hdfs.rollSize = 0  
agent.sinks.hdfs_sink.hdfs.rollCount = 0  
agent.sinks.hdfs_sink.hdfs.rollInterval = 3600  
agent.sinks.hdfs_sink.hdfs.threadsPoolSize = 30
agent.sinks.hdfs_sink.hdfs.fileType=DataStream    
agent.sinks.hdfs_sink.hdfs.writeFormat=Text

3.KafkaChannel配置

程式碼如下：

# define channel from kafka source to hdfs sink 
agent.channels.mem_channel.type = memory  

# channel store size
agent.channels.mem_channel.capacity = 100000
# transaction size
agent.channels.mem_channel.transactionCapacity = 10000

三、啟動Flume NG和Kafka驗證

1.啟動Flume採集日誌寫入Kafka代理

flume-ng agent -n agent -f $FLUME_HOME/conf/flume-kafka.properties &>flume-kafka.log &

2.啟動Flume採集Kafka訊息寫入HDFS代理

flume-ng agent -n agent -f $FLUME_HOME/conf/kafka2hdfs.properties &>kafka2hdfs.log &

3.效果展示

消費：

[[email protected] ~]# kafka-console-consumer.sh --bootstrap-server 172.18.221.221:9092,172.29.155.250:9092  --topic flume-kafka
hello,2020-12-25,16:38:41,15223012324
hello,2020-12-25,16:38:51,15223012324
hello,2020-12-25,16:39:01,15223012324
hello,2020-12-25,16:39:11,15223012324
hello,2020-12-25,16:39:21,15223012324
hello,2020-12-25,16:39:31,15223012324
hello,2020-12-25,16:39:41,15223012324

HDFS：

[[email protected] /]# hdfs dfs -cat /data/flume/kafka/2020-12-25/16/FlumeData.1608885511599.txt.tmp
hello,2020-12-25,16:38:11,15223012324
hello,2020-12-25,16:38:01,15223012324
hello,2020-12-25,16:38:21,15223012324
hello,2020-12-25,16:38:31,15223012324
hello,2020-12-25,16:38:41,15223012324
hello,2020-12-25,16:38:51,15223012324
hello,2020-12-25,16:39:01,15223012324
hello,2020-12-25,16:39:11,15223012324
hello,2020-12-25,16:39:21,15223012324
hello,2020-12-25,16:39:31,15223012324
hello,2020-12-25,16:39:41,15223012324

在這裡插入圖片描述

總結

這裡我寫入到HDFS的方法為一個小時建立一個資料夾，具體請根據實際情況而定，正在接收資料寫操作的檔案的字尾預設為.tmp，寫操作完成之後，字尾會自動刪除。

Kafka與Flume和HDFS整合應用之日誌採集系統專案

技術標籤：kafkaflumehadoophadoopflume大資料kafkazookeeper 文章目錄前言專案需求一、Flume採集日誌寫入Kafka1.Source配置2.Sinks配置3.Channel配置

資料結構與演演算法 -- 圖的應用之最小生成樹問題

前言前面對圖的儲存和 **圖的遍歷（廣度優先/深度優先）**做了簡單的學習和了解，本篇文章，學習一下最小生成樹的問題，以及對應解決這個問題的兩種演演算法普里姆演演算法和克魯斯卡爾演演算法

將 vue.js 和 vuetify 整合到 laravel 8 中的專案模板

技術標籤：MVVM設計模式laravelvue laravel_vuetify_template 碼雲安裝記錄修改了 Laravel 配置資訊：

Flume構建日誌採集系統

title: Flume構建日誌採集系統 date:2018-02-03 19:45 tags: [flume,kafka] 一、Flume介紹 1.Flume特點

實時電商數倉（三）之資料採集（二）搭建日誌採集系統的叢集（一）子模組：日誌採集模組 logger --（單機開發除錯）

1.1 springboot簡介 Spring Boot 是由Pivotal 團隊提供的全新框架，其設計目的是用來簡化新Spring 應用的初始搭建以及開發過程。該框架使用了特定的方式來進行配置，從而使開發人員不再需要定義樣板化的配置。

實時電商數倉（四）之資料採集（三）搭建日誌採集系統的叢集（二）日誌採集模組打包部署--- (部署到伺服器)

2日誌採集模組打包部署---(部署到伺服器) 2.1 修改logback中的配置檔案 <?xml version=\"1.0\" encoding=\"UTF-8\"?>

實時電商數倉（五）之資料採集（四）搭建日誌採集系統的叢集（三）搭建日誌採集叢集---(叢集部署)

3.1 Nginx 入門 3.1.1簡介 Nginx(\"engine x\") 是一個高效能的HTTP和反向代理伺服器,特點是佔有記憶體少，併發能力強，事實上nginx的併發能力確實在同類型的網頁伺服器中表現較好，中國大陸使用nginx網站使用者有：

第五章 Flume日誌採集系統

主要內容：瞭解Flume Flume安裝部署 HDFSSink 5.1 瞭解Flume 1)Flume概述 Flume是Cloudera提供的一個高可用，高可靠的，分散式的海量日誌採集、聚合和傳輸的軟體。

程式設計入門之日誌聚合系統

一、啥是日誌，為啥要聚合　　面試初級同學常問的問題之一就是，一個線上執行的生產系統，如果出現了一些在測試環境復現不了的bug該如何處理啊？錯誤回答：“我們的系統從沒有出過問題”，正確回答：“加日誌”。

Java入門到架構師教程之JavaScript：history物件和location物件、JavaScript設計模式系統講解與應用

一、history物件 history 物件是歷史物件。包含使用者（在瀏覽器視窗中）訪問過的 URL。history 物件是 window 物件的一部分，可通過 window.history 屬性對其進行訪問。

Python面向物件之私有屬性和私有方法應用案例分析

本文例項講述了Python面向物件之私有屬性和私有方法。分享給大家供大家參考，具體如下：

flume從Kafka消費資料到HDFS

#source的名字 agent.sources = kafkaSource # channels的名字，建議按照type來命名 agent.channels = memoryChannel

Django之ALLOWED_HOSTS、LOGGING和多個子應用管理

一、ALLOWED_HOSTS配置可以使用那些iP或者域名來訪問系統預設為空，可以使用127.0.0.1或者localhost，也可以指定ip

Kafka和RocketMQ底層儲存之那些你不知道的事

大家好，我是yes。我們都知道 RocketMQ 和 Kafka 訊息都是存在磁碟中的，那為什麼訊息存磁碟讀寫還可以這麼快？有沒有做了什麼優化？都是存磁碟它們兩者的實現之間有什麼區別麼？各自有什麼優缺點?

【STM32F407開發板使用者手冊】第32章 STM32F407的SPI匯流排應用之驅動W25QXX（支援查詢，中斷和DMA）

最新教程下載：http://www.armbbs.cn/forum.php?mod=viewthread&tid=93255 第32章 STM32F407的SPI匯流排應用之驅動W25QXX（支援查詢，中斷和DMA）

【STM32F429開發板使用者手冊】第32章 STM32F429的SPI匯流排應用之驅動W25QXX（支援查詢，中斷和DMA）

最新教程下載：http://www.armbbs.cn/forum.php?mod=viewthread&tid=93255 第32章 STM32F429的SPI匯流排應用之驅動W25QXX（支援查詢，中斷和DMA）

喵星之旅-狂奔的兔子-rabbitmq和spring整合

一、建立maven專案這裡使用的是社群版idea和jdk8。二、匯入依賴

Kafka與Flume和HDFS整合應用之日誌採集系統專案

文章目錄

前言

專案需求

一、Flume採集日誌寫入Kafka

1.Source配置

2.Sinks配置

3.Channel配置

二、Flume採集Kafka訊息寫入HDFS

1.KafkaSource配置

2.KafkaSinks配置

3.KafkaChannel配置

三、啟動Flume NG和Kafka驗證

1.啟動Flume採集日誌寫入Kafka代理

2.啟動Flume採集Kafka訊息寫入HDFS代理

3.效果展示

總結

相關推薦