Flume架構與原始碼分析-整體架構
最近在學習Flume原始碼,所以想寫一份Flume原始碼學習的筆記供需要的朋友一起學習參考。
1、Flume介紹
Flume是cloudera公司開源的一款分散式、可靠地進行大量日誌資料採集、聚合和並轉移到儲存中;通過事務機制提供了可靠的訊息傳輸支援,自帶負載均衡機制來支撐水平擴充套件;並且提供了一些預設元件供直接使用。
Flume目前常見的應用場景:日誌--->Flume--->實時計算(如Kafka+Storm) 、日誌--->Flume--->離線計算(如HDFS、HBase)、日誌--->Flume--->ElasticSearch。
2、整體架構
Flume主要分為三個元件:Source、Channel、Sink;資料流如下圖所示:
1、Source負責日誌流入,比如從檔案、網路、Kafka等資料來源流入資料,資料流入的方式有兩種輪訓拉取和事件驅動;
2、Channel負責資料聚合/暫存,比如暫存到記憶體、本地檔案、資料庫、Kafka等,日誌資料不會在管道停留很長時間,很快會被Sink消費掉;
3、Sink負責資料轉移到儲存,比如從Channel拿到日誌後直接儲存到HDFS、HBase、Kafka、ElasticSearch等,然後再有如Hadoop、Storm、ElasticSearch之類的進行資料分析或查詢。
一個Agent會同時存在這三個元件,Source和Sink都是非同步執行的,相互之間不會影響。
假設我們有采集並索引Nginx訪問日誌,我們可以按照如下方式部署:
1、Agent和Web Server是部署在同一臺機器;
2、Source使用ExecSource並使用tail命令採集日誌;
3、Channel使用MemoryChannel,因為日誌資料丟點也不算什麼大問題;
4、Sink使用ElasticSearchSink寫入到ElasticSearch,此處可以配置多個ElasticSearch伺服器IP:PORT列表以便提升處理能力。
以上介紹了日誌是如何流的,對於複雜的日誌採集,我們需要對Source日誌進行過濾、寫到多個Channel、對Sink進行失敗處理/負載均衡等處理,這些Flume預設都提供了支援:
1、Source採集的日誌會傳入ChannelProcessor元件,其首先通過Interceptor進行日誌過濾,如果接觸過Servlet的話這個概念是類似的,可以參考《Servlet3.1規範翻譯——過濾器》 ;過濾器可以過濾掉日誌,也可以修改日誌內容;
2、過濾完成後接下來會交給ChannelSelector進行處理,預設提供了兩種選擇器:複製或多路複用選擇器;複製即把一個日誌複製到多個Channel;而多路複用會根據配置的選擇器條件,把符合條件的路由到相應的Channel;在寫多個Channel時可能存在存在失敗的情況,對於失敗的處理有兩種:稍後重試或者忽略。重試一般採用指數級時間進行重試。
我們之前說過Source生產日誌給Channel、Sink從Channel消費日誌;它倆完全是非同步的,因此Sink只需要監聽自己關係的Channel變化即可。
到此我們可以對Source日誌進行過濾/修改,把一個訊息複製/路由到多個Channel,對於Sink的話也應該存在寫失敗的情況,Flume預設提供瞭如下策略:
預設策略就是一個Sink,失敗了則這個事務就失敗了,會稍後重試。
Flume還提供了故障轉移策略:
Failover策略是給多個Sink定義優先順序,假設其中一個失敗了,則路由到下一個優先順序的Sink;Sink只要丟擲一次異常就會被認為是失敗了,則從存活Sink中移除,然後指數級時間等待重試,預設是等待1s開始重試,最大等待重試時間是30s。
Flume也提供了負載均衡策略:
負載均衡演算法預設提供了兩種:輪訓和隨機;其通過抽象一個類似ChannelSelector的SinkSelector進行選擇,失敗補償機制和Failover中的演算法類似,但是預設是關閉失敗補償的,需要配置backoff引數為true開啟。
到此Flume涉及的一些核心元件就介紹完了,對於Source和Sink如何非同步、Channel提供的事務機制等我們後續分析元件時再講。
假設我們需要採集非常多的客戶端日誌並對他們進行一些緩衝或集中的處理,就可以部署一個聚合層,整體架構類似於如下:
1、首先是日誌採集層,該層的Agent和應用部署在同一臺機器上,負責採集如Nginx訪問日誌;然後通過RPC將日誌流入到收集/聚合層;在這一層應該快速的採集到日誌然後流入到收集/聚合層;
2、收集/聚合層進行日誌的收集或聚合,並且可以進行容錯處理,如故障轉移或負載均衡,以提升可靠性;另外可以在該層開啟檔案Channel,做資料緩衝區;
3、收集/聚合層對資料進行過濾或修改然後進行儲存或處理;比如儲存到HDFS,或者流入Kafka然後通過Storm對資料進行實時處理。
到此從Flume核心元件到一般的部署架構我們就大體瞭解了,而涉及的一些實現細節在接下來的部分進行詳細介紹。
轉載於:https://my.oschina.net/boltwu/blog/718812