flume採集MongoDB資料到Kafka中

阿新 • • 發佈：2020-12-23

環境說明

centos7（運行於vbox虛擬機器）
flume1.9.0（自定義了flume連線mongodb的source外掛）
jdk1.8
kafka（2.11）
zookeeper（3.57）
mongoDB4.0.0（無密碼）
xshell 7

自定義flume外掛

由於flume對資料庫的支援欠缺，flume的source元件中，沒有元件適用於連線關係型資料庫或非關係型資料庫。

對於關係型資料庫（RDB），github中開源外掛flume-ng-sql-source被廣泛用於對接RDB。但是對於非關係型資料庫，不同的非關係型資料庫之間都有些許差別，且沒有一個統一的，或者配對的外掛來支援非關係型資料庫。

因此，需要使用者自定義外掛來適配。

我自定義的flume-ng-mongodb-source的jar包如下：

（）

將該jar包放在yourpath/flume/lib下（yourpath指你flume資料夾前面路徑，下同。同理，下文出現的yourhost指你本機的ip地址）

連線mongodb的配置檔案

在mongodb中建立database和collection，用於測試。

建立資料庫：

use flumetest

建立集合（隱式建立）：

db.testCollection.insert({id:1,name:"333"})

檢視是否已經建立了資料庫：

> show dbs
admin      0.000GB
config     0.000GB
flumetest  0.000GB
local      0.000GB
test       0.000GB

檢視集合中的資料：

> db.testCollection.findOne()
{ "_id" : ObjectId("5fe29faad5553e6caaa8cbe9"), "id" : 1, "name" : "333" }

此外，我們需要將mongodb相關的驅動jar包放到yourpath/flume/lib下

bson-3.12.7.jar
mongo-java-driver-3.12.7.jar
mongodb-driver-core-3.12.7.jar

flume連線mongodb需要先編寫相關的配置檔案，在yourpath/flume/conf裡新增配置檔案mongo-flume.conf

，具體的配置如下：

#This is a model,you can use for test
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = com.wms.flumesource.MongoDBSource
a1.sources.r1.Mongodb.url = yourhost:27017
a1.sources.r1.Mongodb.database=flumetest
a1.sources.r1.Mongodb.collection = testCollection
a1.sources.r1.Mongodb.column= _id
a1.sources.r1.start.from = 0
a1.sources.r1.interval=2000
a1.sources.r1.charset=UTF-8

# Describe the sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic = mongoTopic
a1.sinks.k1.brokerList = yourhost:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 20

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 1000

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

引數說明：

# mongodb的url
a1.sources.r1.Mongodb.url = yourhost:27017
# 要連線的database
a1.sources.r1.Mongodb.database=flumetest
# 要連線的collection
a1.sources.r1.Mongodb.collection = testCollection
# mongodb中每條資料都有預設的_id，用於續傳
a1.sources.r1.Mongodb.column= _id


# sink使用了kafka，flume成功連線之後開啟消費監控就能看到資料了
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
# 接下來用於監控消費的topic名字
a1.sinks.k1.topic = mongoTopic

因為mongodb有叢集操作，所以flume-ng-mongodb-source也支援mongodb叢集，只需要在a1.sources.r1.Mongodb.url裡配置多個url即可，如：

a1.sources.r1.Mongodb.url = yourhost1:port1,yourhost2:port2,yourhost3:port3,......

採集mongodb資料實踐

啟動mongodb和kafka。

啟動flume

bin/flume-ng agent -n a1 -c conf -f conf/mongo-flume.conf -Dflume.root.logger=INFO,console

引數說明：

a1：是你在mongo-flume中給agent起的別名
conf/mongo-flume.conf：匯入前文所述的配置檔案，配置檔案在yourpath/flume/conf下。

啟動一個kafka消費監控：

bin/kafka-console-consumer.sh --bootstrap-server yourhost:9092 --topic mongoTopic --from-beginning

獲取testCollection中全部資料（下圖不是重複資料，是之前多次測試在topic中留下的資料）：

往testCollection中新增一條資料：

db.testCollection.insert({id:7,name:"test",city:"Beijing"})

消費監控中的結果如下：

只讀增量資料

如果不想把collection中所有的資料都讀取出來，請修改flume-ng-mongodb-source原始碼。

在MongoDBSource.java檔案中，找到run方法，取消掉events.clear()的註釋。

再次打包，替換掉lib下flume-ng-mongodb-source的jar包。

然後再次執行上面的啟動操作：

bin/kafka-console-consumer.sh --bootstrap-server yourhost:9092 --topic mongoTopic --from-beginning


bin/kafka-console-consumer.sh --bootstrap-server yourhost:9092 --topic mongoTopic --from-beginning

插入一條資料：

db.testCollection.insert({id:8,name:"增量"})

檢視消費監控：

可以看到只有新增的資料了，不會再讀取所有的資料

再插入一條資料實驗一下：

db.testCollection.insert({id:9,source:"MongoDBSource",channle:"memory",sink:"kafka"})

flume採集MongoDB資料到Kafka中

環境說明 centos7（運行於vbox虛擬機器） flume1.9.0（自定義了flume連線mongodb的source外掛）

python每5分鐘從kafka中提取資料的例子

我就廢話不多說了，直接上程式碼吧！ import sys sys.path.append(\"..\") from datetime import datetime

網站流量日誌分析（資料採集之 Flume 採集）

目錄網站流量日誌分析的意義如何進行網站分析流量分析內容導航分析轉化分析（漏斗模型分析）網站流量日誌分析的資料處理流程資料採集資料預處理資料入庫資料分析資料視覺化埋點資料採集資料採集方式及其優缺點埋點js

在Scrapy中如何利用Xpath選擇器從網頁中採集目標資料——詳細教程（上篇）

點選上方“Python爬蟲與資料探勘”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書

使用SparkStreaming獲取Kafka中的流式資料並指定手動提交offset

技術標籤：程式碼sparkkafka大資料sparkkafka資料流概述本篇文章主要有三個示例程式碼，第一個是基礎版使用SparkStreaming讀取kafka中的流式資料，但是此種方式使用的是自動提交offset的方式，可能會出現offse

藍橋樓賽第24期-大資料-使用Flume採集資料題解

技術標籤：hadoopflume題解hadoopflumehdfs 挑戰介紹在 Hadoop 處理資料之前，首先需要採集資料並且上傳到叢集中。本次挑戰需要你使用 Flume 上傳資料，來監測指定目錄中檔案的變化，一旦該目錄有新檔案時，就會

公共資料集採集-axios獲取cookie中的session值

1 /*獲取指定名稱的cookie值*/ export function getCookieValue(name) { let result = document.cookie.match(

Kafka中失效副本與ISR伸縮流程

何為失效副本？失效副本中的失效包括功能失效和同步失效。其中，同步失效主要與配置引數replica.lag.time.max.ms 以及副本同步引數lastCaughtUpTimeMs 有關。同步失效的副本會被踢出ISR集合。

C#獲取某路徑資料夾中全部圖片或其它指定格式的檔名的例項方法

1、編寫獲取檔名（全路徑）子函式 /////param ///path：資料夾路徑 ///suffix：字尾格式，如bmp，txt

Mysql資料表中的蠕蟲複製使用方法

mysql蠕蟲複製，簡單來說就是將查詢出來的資料不斷的新增插入到指定的資料表中。通常情況，mysql蠕蟲複製時用來測試表壓力。

mysql建立儲存過程實現往資料表中新增欄位的方法分析

本文例項講述了mysql建立儲存過程實現往資料表中新增欄位的方法。分享給大家供大家參考，具體如下：

詳解MongoDB資料還原及同步解決思路

mongodb資料如何還原，同步到其他系統？只要我們瞭解了資料庫日誌原理，一切都是那麼簡單

python+mongodb資料抓取詳細介紹

分享點乾貨！！！ Python資料抓取分析程式設計模組：requests,lxml，pymongo，time，BeautifulSoup

MySQL資料型別中DECIMAL的用法例項詳解

MySQL資料型別中DECIMAL的用法例項詳解在MySQL資料型別中，例如INT,FLOAT,DOUBLE,CHAR,DECIMAL等，它們都有各自的作用，下面我們就主要來介紹一下MySQL資料型別中的DECIMAL型別的作用和用法。

linux 下python多執行緒遞迴複製資料夾及資料夾中的檔案

本文是利用python 複製資料夾剛開始寫了一個普通的遞迴複製資料夾然後想了想覺得對io頻繁的程式 threading 執行緒還比較友好就寫了個多執行緒版本的最噁心人的地方就是路徑其他都還好吧

淺析pandas 資料結構中的DataFrame

DataFrame 型別類似於資料庫表結構的資料結構，其含有行索引和列索引，可以將DataFrame 想成是由相同索引的Series組成的Dict型別。在其底層是通過二維以及一維的資料塊實現。

Django+uni-app實現資料通訊中的請求跨域的示例程式碼

前後端分離的模式下，後端使用Django RestFramework，前端使用uni-app來進行APP的開發。

解決Django刪除migrations資料夾中的檔案後出現的異常問題

migrate檔案記錄了每一次資料遷移的改變解決方法：重建資料庫 1.刪除資料庫錯誤方法：

Python 實現判斷圖片格式並轉換,將轉換的影象存到生成的資料夾中

我就廢話不多說了，直接上程式碼吧！ import Image from datetime import datetime import os

python讀取多層巢狀資料夾中的檔案例項

由於工作安排，需要讀取多層資料夾下巢狀的檔案，資料夾的結構如下圖所示：

flume採集MongoDB資料到Kafka中

環境說明

自定義flume外掛

連線mongodb的配置檔案

採集mongodb資料實踐

只讀增量資料

相關推薦