1. 程式人生 > 實用技巧 >hadoop flume 架構及監控的部署

hadoop flume 架構及監控的部署

hadoop flume 架構及監控的部署

1 Flume架構解釋

Flume概念

Flume是一個分散式 ,可靠的,和高可用的,海量的日誌聚合系統

支援在系統中定製各類的資料傳送方

用於收集資料

提供簡單的資料提取能力

並寫入到各種接受方

Flume 特點

1 可靠性

當節點出現故障時,日誌能夠被傳送到其他節點上而不會丟失。Flume提供了三種級別 的可靠性保障,所有的資料以event為單位傳輸,從強到弱依次分別為:end-to-end

收到資料agent首先將event寫到磁碟上,當資料傳送成功後,再刪除;如果資料傳送失敗, 可以重新發送。),Store on failure(這也是

scribe採用的策略,當資料接收方crash時,將資料寫到本地,待恢復後,繼續傳送),Best effort(資料傳送到接收方後,不會進行確認)

2可擴充套件性

Flume採用了三層架構,分別為agentcollectorstorage,每一層均可以水平擴充套件。其中,所有agentcollectormaster統一管理,這使得系統容易監控和維護,且master允許有多個(使用ZooKeeper進行管理和負載均衡),這就避免了單點故障問題。

3 可管理性

所有agentcolletormaster統一管理,這使得系統便於維護。多master情況,Flume利用ZooKeeper

gossip,保證動態配置資料的一致性。使用者可以在master上檢視各個資料來源或者資料流執行情況,且可以對各個資料來源配置和動態載入。Flume提供了web shell script command兩種形式對資料流進行管理。

Flume ng 的架構

Flume NG核心概念
Flume的架構主要有一下幾個核心概念:
1Event:一個數據單元,帶有一個可選的訊息頭。
2FlowEvent從源點到達目的點的遷移的抽象。
3Client:操作位於源點處的Event,將其傳送到Flume Agent
4Agent:一個獨立的Flume程序,包含元件SourceChannel

Sink
1)Source:用來消費傳遞到該元件的Event
2)Channel:中轉Event的一個臨時儲存,儲存有Source元件傳遞過來的Event
3)Sink:從Channel中讀取並移除Event,將Event傳遞到Flow Pipeline中的下一個Agent(如果有的話)或者資料持久化。

2監控

修改檔案
/usr/hdp/2*/flume/config
flume.env檔案

1監控的配置檔案

2建立對應的目錄及修改許可權

Mkdir ****

3啟動監控

4向監控目錄執行操作

posted @ 2017-08-13 15:39 菜鳥的進擊 閱讀(...) 評論(...) 編輯 收藏