Flume概念與原理

阿新 • • 發佈：2019-01-21

一.什麼是Flume?

apache Flume 是一個從可以收集例如日誌，事件等資料資源，並將這些數量龐大的資料從各項資料資源中集中起來儲存的工具/服務，或者數集中機制。flume具有高可用，分散式，配置工具，其設計的原理也是基於將資料流，如日誌資料從各種網站伺服器上彙集起來儲存到HDFS，HBase等集中儲存器中。其結構如下圖所示：

二.Flume特點

　　flume是一個分散式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統。支援在日誌系統中定製各類資料傳送方，用於收集資料;同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方(比如文字、HDFS、Hbase等)的能力。
　　flume

的資料流由事件(Event)貫穿始終。事件是Flume的基本資料單位，它攜帶日誌資料(位元組陣列形式)並且攜帶有頭資訊，這些Event由Agent外部的Source生成，當Source捕獲事件後會進行特定的格式化，然後Source會把事件推入(單個或多個)Channel中。你可以把Channel看作是一個緩衝區，它將儲存事件直到Sink處理完該事件。Sink負責持久化日誌或者把事件推向另一個Source。
　　1）flume的可靠性
　　當節點出現故障時，日誌能夠被傳送到其他節點上而不會丟失。Flume提供了三種級別的可靠性保障，從強到弱依次分別為：end-to-end（收到資料agent首先將

event寫到磁碟上，當資料傳送成功後，再刪除；如果資料傳送失敗，可以重新發送。），Store on failure（這也是scribe採用的策略，當資料接收方crash時，將資料寫到本地，待恢復後，繼續傳送），Besteffort（資料傳送到接收方後，不會進行確認）。

2）flume的可恢復性

還是靠Channel。推薦使用FileChannel，事件持久化在本地檔案系統裡(效能較差)。

Flume的一些核心概念

　　Client：Client生產資料，執行在一個獨立的執行緒。

　　Event：一個數據單元，訊息頭和訊息體組成。（Events可以是日誌記錄、 avro 物件等。）
　　Flow： Event從源點到達目的點的遷移的抽象。
　　Agent：一個獨立的Flume程序，包含元件Source、 Channel、 Sink。（Agent使用JVM 執行Flume。每臺機器執行一個agent，但是可以在一個agent中包含多個sources和sinks。）
　　Source：資料收集元件。（source從Client收集資料，傳遞給Channel）
　　Channel：中轉Event的一個臨時儲存，儲存由Source元件傳遞過來的Event。（Channel連線 sources 和 sinks ，這個有點像一個佇列。）
　　Sink：從Channel中讀取並移除Event，將Event傳遞到FlowPipeline中的下一個Agent（如果有的話）（Sink從Channel收集資料，執行在一個獨立執行緒。）

三.Flume的優勢

1. Flume可以將應用產生的資料儲存到任何集中儲存器中，比如HDFS,HBase

2. 當收集資料的速度超過將寫入資料的時候，也就是當收集資訊遇到峰值時，這時候收集的資訊非常大，甚至超過了系統的寫入資料能力，這時候，Flume會在資料生產者和資料收容器間做出調整，保證其能夠在兩者之間提供一共平穩的資料.

3. 提供上下文路由特徵

4. Flume的管道是基於事務，保證了資料在傳送和接收時的一致性.

5. Flume是可靠的，容錯性高的，可升級的，易管理的,並且可定製的。

3. Flume具有的特徵：

1. Flume可以高效率的將多個網站伺服器中收集的日誌資訊存入HDFS/HBase中

2. 使用Flume，我們可以將從多個伺服器中獲取的資料迅速的移交給Hadoop中

3. 除了日誌資訊，Flume同時也可以用來接入收集規模巨集大的社交網路節點事件資料，比如facebook,twitter,電商網站如亞馬遜，flipkart等

4. 支援各種接入資源資料的型別以及接出資料型別

5. 支援多路徑流量，多管道接入流量，多管道接出流量，上下文路由等

6. 可以被水平擴充套件

四. Flume的結構

1. flume的外部結構：

如上圖所示，資料發生器（如：facebook,twitter）產生的資料被被單個的執行在資料發生器所在伺服器上的agent所收集，之後資料收容器從各個agent上彙集資料並將採集到的資料存入到HDFS或者HBase中

Flume OG：Flume Original Generation，初代Flume。
由三種角色構成：代理點（agent）、收集節點（collector）、主節點（master）

agent 從各個資料來源收集日誌資料，將收集到的資料集中到 collector，然後由收集節點彙總存入 hdfs。

master 負責管理 agent，collector 的活動。

agent、collector 都稱為 node，node 的角色根據配置的不同分為 logical node（邏輯節點）、physical node（物理節點）。對 logical nodes 和 physical nodes 的區分、配置、使用一直以來都是使用者最頭疼的地方。

agent、collector由Source、Sink組成，當前節點的資料是從Source傳送到Sink的。

2. Flume 事件

事件作為Flume內部資料傳輸的最基本單元.它是由一個轉載資料的位元組陣列(該資料組是從資料來源接入點傳入，並傳輸給傳輸器，也就是HDFS/HBase)和一個可選頭部構成.

典型的Flume 事件如下面結構所示：

我們在將event在私人定製外掛時比如：flume-hbase-sink外掛是，獲取的就是event然後對其解析，並依據情況做過濾等，然後在傳輸給HBase或者HDFS.

3.Flume Agent

我們在瞭解了Flume的外部結構之後,知道了Flume內部有一個或者多個Agent,然而對於每一個Agent來說,它就是一共獨立的守護程序(JVM),它從客戶端哪兒接收收集,或者從其他的 Agent哪兒接收,然後迅速的將獲取的資料傳給下一個目的節點sink,或者agent. 如下圖所示flume的基本模型

Agent主要由:source,channel,sink三個元件組成.

Source:

從資料發生器接收資料,並將接收的資料以Flume的event格式傳遞給一個或者多個通道channal,Flume提供多種資料接收的方式,比如Avro,Thrift,twitter1%等

Channel:

channal是一種短暫的儲存容器,它將從source處接收到的event格式的資料快取起來,直到它們被sinks消費掉,它在source和sink間起著一共橋樑的作用,channal是一個完整的事務,這一點保證了資料在收發的時候的一致性. 並且它可以和任意數量的source和sink連結. 支援的型別有: JDBC channel , File System channel , Memort channel等.

sink:

sink將資料儲存到集中儲存器比如Hbase和HDFS,它從channals消費資料(events)並將其傳遞給目標地. 目標地可能是另一個sink,也可能HDFS,HBase.

它的組合形式舉例:

以上介紹的flume的主要元件,下面介紹一下Flume外掛:

1. Interceptors攔截器

攔截器的位置在Source和Channel之間，當我們為Source指定攔截器後，我們在攔截器中會得到event，根據需求我們可以對event進行保留還是拋棄，拋棄的資料不會進入Channel中。

2. 管道選擇器 channels Selectors

在多管道是被用來選擇使用那一條管道來傳遞資料(events). 管道選擇器又分為如下兩種:

預設管道選擇器: 每一個管道傳遞的都是相同的events

多路複用通道選擇器: 依據每一個event的頭部header的地址選擇管道.

3.sink執行緒

用於啟用被選擇的sinks群中特定的sink,用於負載均衡.

五、Flume使用場景

　　Flume在英文中的意思是水道，但Flume更像可以隨意組裝的消防水管，下面根據官方文件，展示幾種Flow。

5.1、多個agent順序連線

　　可以將多個Agent順序連線起來，將最初的資料來源經過收集，儲存到最終的儲存系統中。這是最簡單的情況，一般情況下，應該控制這種順序連線的
　　Agent 的數量，因為資料流經的路徑變長了，如果不考慮failover的話，出現故障將影響整個Flow上的Agent收集服務。

5.2、多個Agent的資料匯聚到同一個Agent

　　這種情況應用的場景比較多，比如要收集Web網站的使用者行為日誌， Web網站為了可用性使用的負載叢集模式，每個節點都產生使用者行為日誌，可以為
　　每個節點都配置一個Agent來單獨收集日誌資料，然後多個Agent將資料最終匯聚到一個用來儲存資料儲存系統，如HDFS上。

5.3、多級流

　　Flume還支援多級流，什麼多級流？結合在雲開發中的應用來舉個例子，當syslog， java， nginx、 tomcat等混合在一起的日誌流開始流入一個agent
　　後，可以agent中將混雜的日誌流分開，然後給每種日誌建立一個自己的傳輸通道。

5.4、load balance功能

　　上圖Agent1是一個路由節點，負責將Channel暫存的Event均衡到對應的多個Sink元件上，而每個Sink元件分別連線到一個獨立的Agent上。

六.Flume與Kafka對比

kafka和flume都是日誌系統，kafka是分散式訊息中介軟體，自帶儲存，提供push和pull存取資料功能。flume分為agent（資料採集器）,collector（資料簡單處理和寫入）,storage（儲存器）三部分，每一部分都是可以定製的。比如agent採用RPC（Thrift-RPC）、text（檔案）等，storage指定用hdfs做。

Kafka 是一個非常通用的系統。你可以有許多生產者和很多的消費者共享多個主題Topics。相比之下,Flume是一個專用工具被設計為旨在往HDFS,HBase傳送資料。它對HDFS有特殊的優化，並且集成了Hadoop的安全特性。所以，Cloudera 建議如果資料被多個系統消費的話，使用kafka；如果資料被設計給Hadoop使用，使用Flume。

Flume可以使用攔截器實時處理資料。這些對資料遮蔽或者過量是很有用的。Kafka需要外部的流處理系統才能做到。

Kafka和Flume都是可靠的系統,通過適當的配置能保證零資料丟失。然而，Flume不支援副本事件。於是，如果Flume代理的一個節點崩潰了，即使使用了可靠的檔案管道方式，你也將丟失這些事件直到你恢復這些磁碟。如果你需要一個高可靠行的管道，那麼使用Kafka是個更好的選擇。

Flume和Kafka可以很好地結合起來使用。如果你的設計需要從Kafka到Hadoop的流資料，使用Flume代理並配置Kafka的Source讀取資料也是可行的：你沒有必要實現自己的消費者。你可以直接利用Flume與HDFS及HBase的結合的所有好處。你可以使用Cloudera Manager對消費者的監控，並且你甚至可以新增攔截器進行一些流處理。kafka做日誌快取應該是更為合適的，但是 flume的資料採集部分做的很好，可以定製很多資料來源，減少開發量。所以比較流行flume+kafka模式，如果為了利用flume寫hdfs的能力，也可以採用kafka+flume的方式。　　

Flume概念與原理

Flume概念與原理、與Kafka優勢對比

Flume概念與原理

Bloom filter(布隆過濾器)概念與原理

Java執行緒詳解(1)-概念與原理

ChainDesk：初識鏈碼-鏈碼概念與原理

Java多執行緒程式設計總結筆記——03概念與原理

iOS/OS X記憶體管理(一)：基本概念與原理

Elasticsearch最佳實踐之核心概念與原理

iOS/OS X記憶體管理（一）：基本概念與原理

區塊鏈技術核心概念與原理理解

Java-----IO流的概念與原理

影象語義分割的概念與原理以及常用的方法

一、zookeeper詳解概念與原理（總結的乾貨）

Hbase學習之概念與原理

flume監控與監控原理

容器概念與Linux Container原理

《微機原理與介面技術》第三章——介面概念和原理

AOP概念與執行原理

Linux程序管理之1 程序概念與作業系統基礎原理

理解Spring（二）：AOP 的概念與實現原理

Flume概念與原理

相關推薦