flume配置檔案和實際場景理解
阿新 • • 發佈:2018-12-11
一、場景一描述:
線上api介面服務通過log4j往本地磁碟上列印日誌,在介面伺服器上安裝flume,通過exec source收集日誌,然後通過avro sink傳送到彙總伺服器上的flume;彙總伺服器上的flume通過avro source接收日誌,然後通過file_roll sink寫到本地磁碟。
二、場景二描述:
線上api介面服務通過log4j往本地磁碟上列印日誌,在介面伺服器上安裝flume,通過exec source收集日誌,然後通過avro sink將日誌傳送到彙總伺服器上的flume;在彙總伺服器上的flume,通過avro source接收到日誌,然後通過hdfs sink備份到hdfs上。
上述是倆種比較常見的flume 應用場景,下面是對自定義資料來源和資料輸出的理解:
source - netcat 這是一種類似於生成socket伺服器的方式, 常見實在資料來源處配置此選項,用於測試比較方便
source - exec 這是監控檔案的方式,如果檔案內容發生變化就會觸發收集
source - avro 這是相當於跨域轉接資料的方式,常見與分散式實現多資料來源彙總的方式,比如接受多個flume sink
對於輸出sink就比較多了
sink -loger 直接列印到控制檯,當然這種用於測試的比較多
sink -sparkStreaming 傳送到sparkStreaming
sink - kafka 傳送到kafka