Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

阿新 • • 發佈：2018-12-11

概述

大資料平臺每天會產生大量的日誌，處理這些日誌需要特定的日誌系統。

一般而言，這些系統需要具有以下特徵：

構建應用系統和分析系統的橋樑，並將它們之間的關聯解耦；
支援近實時的線上分析系統和類似於Hadoop之類的離線分析系統；
具有高可擴充套件性。即：當資料量增加時，可以通過增加節點進行水平擴充套件。

為此建議將日誌採集分析系統分為如下幾個模組：

資料採集模組：負責從各節點上實時採集資料，建議選用Flume-NG來實現。
資料接入模組：由於採集資料的速度和資料處理的速度不一定同步，因此新增一個訊息中介軟體來作為緩衝，建議選用Kafka來實現。

流式計算模組：對採集到的資料進行實時分析，建議選用Storm來實現。
資料輸出模組：對分析後的結果持久化,可以使用HDFS、MySQL等。

日誌採集選型

大資料平臺每天會產生大量的日誌，處理這些日誌需要特定的日誌系統。目前常用的開源日誌系統有 Flume 和Kafka兩種，都是非常優秀的日誌系統，且各有特點。下面我們來逐一認識一下。

Flume元件特點

Flume是一個分散式、可靠、高可用的海量日誌採集、聚合和傳輸的日誌收集系統。支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方(可定製)的能力。

Flume的設計目標

可靠性

Flume的核心是把資料從資料來源收集過來，再送到目的地。為了保證輸送一定成功，在送到目的地之前，會先快取資料，待資料真正到達目的地後，刪除自己快取的資料。Flume 使用事務性的方式保證傳送Event整個過程的可靠性。

可擴充套件性

Flume中只有一個角色Agent，其中包含Source、Sink、Channel三種元件。一個Agent的Sink可以輸出到另一個Agent的Source。這樣通過配置可以實現多個層次的流配置。

功能可擴充套件性

Flume自帶豐富的Source、Sink、Channel實現。使用者也可以根據需要新增自定義的元件實現, 並在配置中使用起來。

Flume的架構

Flume的基本架構是Agent。它是一個完整的資料收集工具，含有三個核心元件，分別是 Source、Channel、Sink。資料以Event為基本單位經過Source、Channel、Sink，從外部資料來源來，向外部的目的地去。

除了單Agent的架構外，還可以將多個Agent組合起來形成多層的資料流架構：

多個Agent順序連線：將多個Agent順序連線起來，將最初的資料來源經過收集，儲存到最終的儲存系統中。一般情況下，應該控制這種順序連線的Agent的數量，因為資料流經的路徑變長了，如果不考慮Failover的話，出現故障將影響整個Flow上的Agent收集服務。

多個Agent的資料匯聚到同一個Agent：這種情況應用的場景比較多，適用於資料來源分散的分散式系統中資料流彙總。

多路（Multiplexing）Agent：多路模式一般有兩種實現方式，一種是用來複制，另一種是用來分流。複製方式可以將最前端的資料來源複製多份，分別傳遞到多個Channel中，每個Channel接收到的資料都是相同的。分流方式，Selector可以根據Header的值來確定資料傳遞到哪一個Channel。

實現Load Balance功能：Channel中Event可以均衡到對應的多個Sink元件上，而每個Sink元件再分別連線到一個獨立的Agent上，這樣可以實現負載均衡。

Kafka元件特點

kafka實際上是一個訊息釋出訂閱系統。Producer向某個Topic釋出訊息，而Consumer訂閱某個Topic的訊息。一旦有新的關於某個Topic的訊息，Broker會傳遞給訂閱它的所有Consumer。

Kafka的設計目標

資料在磁碟上的存取代價為O(1)

Kafka以Topic來進行訊息管理，每個Topic包含多個Partition，每個Partition對應一個邏輯log，由多個Segment組成。每個Segment中儲存多條訊息。訊息id由其邏輯位置決定，即從訊息id可直接定位到訊息的儲存位置，避免id到位置的額外對映。

為釋出和訂閱提供高吞吐量

Kafka每秒可以生產約25萬訊息(50 MB)，每秒處理55萬訊息(110 MB)。

分散式系統，易於向外擴充套件

所有的Producer、Broker和Consumer都會有多個，均為分散式的。無需停機即可擴充套件機器。

Kafka的架構

Kafka是一個分散式的、可分割槽的、可複製的訊息系統，維護訊息佇列。

Kafka的整體架構非常簡單，是顯式分散式架構，Producer、Broker和Consumer都可以有多個。Producer，consumer實現Kafka註冊的介面，資料從Producer傳送到Broker，Broker承擔一箇中間快取和分發的作用。Broker分發註冊到系統中的Consumer。Broker的作用類似於快取，即活躍的資料和離線處理系統之間的快取。客戶端和伺服器端的通訊，是基於簡單、高效能、且與程式語言無關的TCP協議。

Flume與Kafka的比較

Flume和Kafka都是優秀的日誌系統，其都能實現資料採集、資料傳輸、負載均衡、容錯等一系列的需求，但是兩者之間還是有著一定的差別。

由此可見Flume和Kafka還是各有特點的：

Flume 適用於沒有程式設計的配置解決方案，由於提供了豐富的source、channel、sink實現，各種資料來源的引入只是配置變更就可實現。
Kafka 適用於對資料管道的吞吐量、可用性要求都很高的解決方案，基本需要程式設計實現資料的生產和消費。

日誌採集選型小結

建議採用Flume作為資料的生產者，這樣可以不用程式設計就實現資料來源的引入，並採用Kafka Sink作為資料的消費者，這樣可以得到較高的吞吐量和可靠性。如果對資料的可靠性要求高的話，可以採用Kafka Channel來作為Flume的Channel使用。

Flume對接Kafka

Flume作為訊息的生產者，將生產的訊息資料（日誌資料、業務請求資料等）通過Kafka Sink釋出到Kafka中。

對接配置

對接示例

假設現有Flume實時讀取/data1/logs/component_role.log的資料並匯入到Kafka的mytopic主題中。

環境預設為：
Zookeeper 的地址為  zdh100:2181 zdh101:2181 zdh102:2181
Kafka broker的地址為 zdh100:9092 zdh101:9092  zdh102:9093

配置Flume agent，如下修改Flume配置：

gent1.sources = logsrc
agent1.channels = memcnl
agent1.sinks = kafkasink
 
#source section
agent1.sources.logsrc.type = exec
agent1.sources.logsrc.command = tail -F /data1/logs/component_role.log
agent1.sources.logsrc.shell = /bin/sh -c
agent1.sources.logsrc.batchSize = 50
agent1.sources.logsrc.channels = memcnl
 
# Each sink's type must be defined
agent1.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent1.sinks.kafkasink.brokerList=zdh100:9092, zdh101:9092,zdh102:9092
agent1.sinks.kafkasink.topic=mytopic
agent1.sinks.kafkasink.requiredAcks = 1
agent1.sinks.kafkasink.batchSize = 20
agent1.sinks.kafkasink.channel = memcnl
 
# Each channel's type is defined.
agent1.channels.memcnl.type = memory
agent1.channels.memcnl.capacity = 1000

啟動該Flume節點：

/home/mr/flume/bin/flume-ng agent -c 
/home/mr/flume/conf -f /home/mr/flume/conf/flume-conf.properties -n agent1 -Dflume.monitoring.type=http -Dflume.monitoring.port=10100

動態追加日誌資料，執行命令向 /data1/logs/component_role.log 新增資料：

echo "測試程式碼" >> /data1/logs/component_role.log
echo "檢測Flume+Kafka資料管道通暢" >> /data1/logs/component_role.log

驗證Kafka資料接收結果，執行命令檢查Kafka收到的資料是否正確，應該可以呈現剛才追加的資料：

/home/mr/kafka/bin/kafka-console-consumer.sh --zookeeper zdh100:2181 --topic mytopic --from-beginning

輸出結果如下：

歡迎工作一到五年的Java工程師朋友們加入Java程式設計師開發： 854393687
群內提供免費的Java架構學習資料（裡面有高可用、高併發、高效能及分散式、Jvm效能調優、Spring原始碼，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料）合理利用自己每一分每一秒的時間來學習提升自己，不要再用"沒有時間“來掩飾自己思想上的懶惰！趁年輕，使勁拼，給未來的自己一個交代！

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

概述

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

Cris 玩轉大資料系列之訊息佇列神器 Kafka

玩轉大資料！Hadoop在大資料的地位如此之高？

玩轉大資料之——通過java操作office/wps的 EXCEL

Python 玩轉大資料 Mapreduce開發 wordcount

玩轉大資料視覺化的幾個必會工具，你認識幾個？

玩轉大資料系列之一：資料採集與同步

玩轉大資料系列之二：資料分析與處理

玩轉大資料系列之三：資料報表與展示

玩轉大資料系列之四：搜尋服務

你愛的小米是怎樣玩轉大資料的？大咖揭祕小米大資料整合架構演化之路

【大資料新手上路】“零基礎”系列課程--如何通過大資料開發套件Data IDE玩轉大資料

程式設計師想玩轉大資料：需要知曉的12種工具

雙11奇蹟背後的大資料平臺，不喧譁，自有聲！

「視訊小課堂」ELK和Kafka是怎麼就玩在一起成了日誌採集解決方案文字版

中芯國際詳解梁孟松、趙海軍雙劍合璧

Sketch+Keynote雙劍合璧：5步快速製作移動動效

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

[大資料] 搜尋日誌資料採集系統 flume+hbase+kafka架構（資料搜狗實驗室）

【JQ】瀑布流與無限滾動條一起使用，雙劍合璧

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

概述

相關推薦