Flume監控檔案內容拉取到Kafka消費

阿新 • • 發佈：2018-12-24

1 zookeeper的安裝配置

1.1 ZK配置(安裝過程省略)
1.1.1安裝完成後進入到zk的安裝目錄下的conf目錄

[[email protected] ~]$ cd /home/install/zookeeper/conf
[[email protected] conf]$

1.1.2重新命名zoo_sample.cfg 為zoo.cfg

[[email protected] conf]$ mv zoo_sample.cfg zoo.cfg

1.1.3修改zoo.conf配置檔案

[[email protected] 
 conf]$ vi zoo.cfg

# example sakes.
# 設定zookeeper的資料存放路徑
dataDir=/home/hadoop/install/zookeeper/data

..............
# 配置zookeeper叢集地址 第一個埠用於選舉leader
# 第二個埠用於leader宕機以後再次選舉新的leader
server.1=192.168.13.128:2888:3888
server.2=192.168.13.129:2888:3888
server.3=192.168.13.131:2888:3888

1.1.4建立zookeeper的資料存放路徑並將id寫入到myid檔案(需要手動建立myid檔案)

[[email protected] conf]$ cd ../
[[email protected] zookeeper]$ mkdir data
[[email protected] zookeeper]$ echo 1 >> data/myid

1.2叢集同步zookeeper資料夾(所有檔案都會被同步)

[[email protected] zookeeper]$ cd ../
[[email protected] install]$ xsync zookeeper/

xsyc是個同步指令碼,指令碼內容詳見
https://blog.csdn.net/huoliangwu/article/details/84591893

1.3分別啟動叢集上的zookeeper 並檢視狀態

[[email protected] zookeeper]$ ./bin/zkServer.sh start
[[email protected] zookeeper]$ ./bin/zkServer.sh status

下次寫一個zookeeper叢集啟動的指令碼

2 Kafka 安裝配置

2.1 Kafka配置(安裝過程省略)
2.1.1Kafka安裝目錄下建立logs目錄

[[email protected] kafka]$ mkdir logs

2.1.2修改配置檔案

[[email protected] kafka]$ cd config/
[[email protected] config]$ vi server.properties

#broker的全域性唯一編號，不能重複
broker.id=0
#是否允許刪除topic
delete.topic.enable=true
#處理網路請求的執行緒數量
num.network.threads=3
#用來處理磁碟IO的執行緒數量
num.io.threads=8
#傳送套接字的緩衝區大小
socket.send.buffer.bytes=102400
#接收套接字的緩衝區大小
socket.receive.buffer.bytes=102400
#請求套接字的最大緩衝區大小
socket.request.max.bytes=104857600
#kafka執行日誌存放的路徑
log.dirs=/home/hadoop/install/kafka/logs
#topic在當前broker上的分割槽個數
num.partitions=1
#用來恢復和清理data下資料的執行緒數量
num.recovery.threads.per.data.dir=1
#segment檔案保留的最長時間，超時將被刪除
log.retention.hours=168
#配置連線Zookeeper叢集地址
zookeeper.connect=mini01:2181,mini02:2181,mini03:2181

2.2分發Kafka安裝後的目錄

[[email protected] config]$ cd ../../
[[email protected] install]$ xsync kafka/

2.3分別修改叢集其他機器上的配置檔案修改broker.id broker.id不得重複

mini02       broker.id=1
mini03       broker.id=2

2.4啟動叢集

[[email protected] kafka]$ bin/kafka-server-start.sh config/server.properties &
[[email protected] kafka]$ bin/kafka-server-start.sh config/server.properties &
[[email protected] kafka]$ bin/kafka-server-start.sh config/server.properties &

3 Flume安裝配置

3.1 ZFlume配置(安裝過程省略)
修改 flume-env.sh 配置檔案,主要是JAVA_HOME變數設定

# during Flume startup.

# Enviroment variables can be set here.

export JAVA_HOME=/home/hadoop/install/jdk1.8.0_111.jdk/

3.2驗證是否安裝成功

[[email protected] flume]$ bin/flume-ng version
Flume 1.7.0
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: 511d868555dd4d16e6ce4fedc72c2d1454546707
Compiled by bessbd on Wed Oct 12 20:51:10 CEST 2016
From source with checksum 0d21b3ffdc55a07e1d08875872c00523

出現提示便表示安裝成功

Flume拉取檔案資料到Kafka消費訊息

新建flume配置檔案 flume2kafka.conf

[[email protected] flume] vi conf/flume2kafka.conf
#定義了當前agent的名字叫做a1
a1.sources = r1        
a1.sinks = k1        
a1.channels = c1 

# Describe/configure the source
a1.sources.r1.type = exec        
a1.sources.r1.command = tail -F /home/hadoop/logs.tsv
a1.sources.r1.shell=/bin/sh -c

# Describe the sink   
a1.sinks.k1.type = logger  

# Use a channel which buffers events in memory
a1.channels.c1.type = memory                
a1.channels.c1.capacity = 1000            
a1.channels.c1.transactionCapacity = 100    

# Bind the source and sink to the channel    
a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

# 指定Flume sink
#a1.sinks.k1.type = logger
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic = test
a1.sinks.k1.brokerList = mini01:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 100

動態造資料

[[email protected] ~]$ test/getlog.sh 
16991082028	餘建堂	18401456522	楊佔昊	46-08-04 15:07:46	1182

19641660102	劉洋	13059125383	郭振君	75-10-14 04:42:31	3926

14361606522	劉優	14692570569	陳猛	33-07-01 13:57:10	1700

17755364600	霍風浩	13059125383	郭振君	90-04-12 14:32:53	5587

15093813308	賈明燦	15060932038	閔強	90-02-11 04:42:22	1416

19641660102	劉洋	18506948961	冀纓菲	25-06-24 06:19:43	2622

15060932038	閔強	13305040991	高永斌	05-05-13 21:10:10	5015

13113007783	孫良明	14692570569	陳猛	94-08-12 03:35:48	3909

啟動 flume

[[email protected] flume]$ bin/flume-ng agent -c conf -f conf/flume_kafka.conf --name a1 -Dflume.root.logger=INFO,console

啟動kafka消費者

[[email protected] kafka]$ bin/kafka-console-consumer.sh --zookeeper mini01:2181 --topic test --from-beginning
Using the ConsoleConsumer with old consumer is deprecated and will be removed in a future major release. Consider using the new consumer by passing [bootstrap-server] instead of [zookeeper].
13658626467	劉海濤	13288940364	賈鑫瑜	61-12-23 17:35:42	2615
19920594188	段雪鵬	17755364600	霍風浩	74-11-18 17:42:22	6740
17533432302	張文舉	14865818526	常天罡	05-05-12 06:43:29	2569
15142556083	趙曉露	18491428393	張苗	51-02-03 20:39:20	2719
13305040991	高永斌	14692570569	陳猛	75-08-08 18:50:56	5506
19641660102	劉洋		14385342683	陳凱	49-09-22 04:50:07	3719

Flume監控檔案內容拉取到Kafka消費

1 zookeeper的安裝配置 1.1 ZK配置(安裝過程省略) 1.1.1安裝完成後進入到zk的安裝目錄下的conf目錄 [[email protected] ~]$ cd /home/install/zookeeper/conf [[email prot

flume監控檔案內容遇到的問題

在Lamda架構分析日誌流水線時用到flume監控日誌檔案的變化。開始測試時，用shell指令碼模擬的簡單日誌，單條日誌格式為：uid-url-ip 如下為我的shell指令碼： #! /bin/bash randnum(){ shuf -i 1-100 -n 1 } rand

Flume之監控檔案內容變化

#定義了當前agent的名字叫做a1 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = exec a1.

pyspark拉取kafka資料

1.建立kafka的topic: ./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --topic test 2.pyspark

flume實現監控檔案，並將檔案內容傳入kafka的，kafka在控制檯實現消費

在flume的配置裡建一個檔案flume-kafka.conf 生產者產生的資料放在/home/hadoop/c.txt中 topic消費c.txt中的檔案 a1.sources = s1

使用flume抓取tomcat的日誌文件下沈到kafka消費

cti div AR onf 啟動tomcat roo capacity gin direct Tomcat生產日誌 Flume抓取日誌下沈到kafka中將寫好的web項目打包成war包，eclise直接導出export，IDEA 在artifact中添加新的artif

通過flume把日誌檔案內容寫入kafka主題

首先自行安裝flume和 kafka當然還要jdk，我flume版本是1.6的kafka版本2.11，jdk1.8。首先在路徑flume下的conf裡面建立一個logtokafka.conf檔案進行配置配置內容如下。 agent.sources=r1 agent.sinks=k1 agen

【Flume】flume檔案監控的source元件開發，增量傳輸檔案內容，支援斷點續傳功能

基於flume-ng中原有exec的source型別，通過tail依賴於作業系統去監聽檔案內容變化，其次，不支援斷點續傳的功能，特此，自行開發了一個元件，大家可以看看，一起探討：該元件特點如下： 1、一個source對應一個檔案監控 2、實時監控檔案變化 3、增量傳輸檔

ansible-playbook基於role的配置一鍵安裝zabbix客戶端以及拉取自定義監控腳本

ansible基於role功能在IT工作中，您可能會一遍又一遍地執行相同的任務；沒有人喜歡重復的任務。通過Ansible，IT管理員可以開始自動化日常任務中的苦差事。自動化解放了管理人員，專註於通過加快應用交付時間和建立在成功文化基礎之上，為業務提供更多價值的努力。最終，Ansible為團隊提

eclipse git 拉取內容

拉取 eclips 分享圖片 src image ips 分享圖片 mage eclipse git 拉取內容

轉自: linux svn命令列無法拉取中文名稱的檔案

轉自: https://blog.csdn.net/shaohui/article/details/3996274#commentBox svn: Can't convert string from 'UTF-8' to&

【原始碼追蹤】SparkStreaming 中用 Direct 方式每次從 Kafka 拉取多少條資料（offset取值範圍）

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffsets 是由

可以在命令列直接使用密碼來進行遠端連線和遠端拉取檔案的命令：sshpass

應用範圍：可以在命令列直接使用密碼來進行遠端連線和遠端拉取檔案。使用前提：對於未連線過的主機。而又不輸入yes進行確認，需要進行sshd服務的優化： # vim /etc/ssh/ssh_config StrictHostKeyChecking no # vi

JZ2440檔案系統通過tftp拉取檔案

2018年9月11日12點27分 harmful-cahn 前言： tftp在uboot、檔案系統階段拉取檔案。首先設定各網絡卡在同一子網段虛擬機器 192.168.137.230 PC 192.168.137.1（我開的使網路共享，用PC機做路由，所以網段設

Spark專案實戰-troubleshooting之解決JVM GC導致的shuffle檔案拉取失敗

一、shuffle檔案拉取失敗的背景介紹我們知道Executor是一個JVM程序，在其內部有一個BlockManager用於管理該executor的一些資料。 Map端的task在往磁盤裡寫檔案的時候，會通過BlockManager來維護底層的資料，同時也會將資料的元資訊

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

git在clone時需要輸入密碼Enter passphrase for key 導致spring cloud config 配置中心無法拉取配置檔案的解決方法

前幾天把系統從win7換到了win10 重灌了開發環境一直沒什麼問題今天在除錯spring cloud 時發現無論如何都拉取不到配置檔案，通過微服務日誌提示 Could not locate PropertySource: label not found 大致就是找不到配

spring cloud 從註冊中心遠端拉取配置檔案錯誤幾種解決方法

1.檢查config server 是否能正常訪問2.檢查config client配置：1)必須是"bootstrap"命名的引導配置檔案2)spring: application: name: 這裡配置的名稱需要與遠端庫的配置檔名稱一致或者使用spring.

Spark troubleshooting shuffle定址以及解決JVM GC導致拉取檔案失敗

shuffle定址圖 shuffle檔案定址基礎知識 MapOutputTracker spark架構中的一個主從模組 Driver端主物件MapOutputTrackerMaster Executor端從物件MapOutputTrackerWorker BlockMa

git pull 拉取專案檔案失敗的解決方案

在男票的臺式上coding，上傳到git之後，想要在自己的筆記本上pull 下來，結果遇到了如下問題：從問題的描述中可以發現，是本地的檔案和遠端程式碼庫的檔案不同，無法進行程式碼融合。解決方案是：

Flume監控檔案內容拉取到Kafka消費

1 zookeeper的安裝配置

2 Kafka 安裝配置

3 Flume安裝配置

Flume拉取檔案資料到Kafka消費訊息

相關推薦