flume通過公網ip採集到hdfs上

阿新 • • 發佈：2019-01-28

需求描述：
公司的伺服器在不同的地市都有分佈，需要把不同地方的伺服器的日誌檔案都收集到公司的內網hadoop叢集中，來進行分析，（公司的hadoop叢集和其他地方的叢集不在同一內網中，需要藉助公網來進行傳輸）
簡單的模型圖如下
這裡寫圖片描述

失敗案例：
直接把公網IP放在了hadoop叢集的nn（namenode上面），模型如下：
這裡寫圖片描述
然後啟動flume往hdfs上面傳輸日誌檔案，發現flume端一直拋異常，說的是，不能夠寫入檔案，然後去hadoop上看，發現只能穿上檔名，但是不能夠寫入檔案。多次嘗試都是不行的，進過一番嘗試和分析，發現時應為外網傳輸的原因，應為公網在namenode上面，但是datanode上面並沒有，當真正往hdfs上面寫檔案的時候，並不能寫上去。錯誤分析圖：
這裡寫圖片描述

成功案例：
經過了一天的糾結終於想的出可以實現的方案了，因為上面的是應為不能和DN進行通訊造成的，所對以上方案進行改進，在公司內網伺服器端再加上一個flume進行對接一下，這樣就可以避免了上面案例的失敗的點了，具體的模型為：
這裡寫圖片描述

附上配置檔案：

#這個是不同地方的伺服器上的flume的配置檔案
#從本地的資料夾中讀取檔案，然後傳送為avro檔案
a1.sources = r1
a1.channels = c1
a1.sinks = k1

#具體定義source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/hadoop/install/flumefile

#具體定義channel 

a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 100

#定義sink

a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 公網ip
a1.sinks.k1.port = 4545

#組裝source、channel、sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

#這個是內網裡面的flume的配置檔案 

#定義agent名， source、channel、sink的名稱
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#
##具體定義source
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 4545
#
#
#
##具體定義channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 100
#
##定義攔截器，為訊息新增時間戳
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder
#
#
#具體定義sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://master:9000/flume/%Y%m%d
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.fileType = DataStream
#
##不按照條數生成檔案
a1.sinks.k1.hdfs.rollCount = 0
##HDFS上的檔案達到128M時生成一個檔案
a1.sinks.k1.hdfs.rollSize = 10240
##HDFS上的檔案達到60秒生成一個檔案
a1.sinks.k1.hdfs.rollInterval = 120
#
#
##組裝source、channel、sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意：配置檔案裡面的引數是不能直接放入生產環境中去使用的，需要自己根據實際情況去修改的，這裡面的引數只是為了方便測試看出來效果才這樣去配置的。

flume通過公網ip採集到hdfs上

flume通過公網ip採集到hdfs上

CentOS 6.8部署Nuxt.js項目(CentOS nuxt.js項目無法通過公網IP訪問的問題)

阿裏雲服務器，無法通過公網ip訪問實例

阿里雲輕量級伺服器搭建伺服器後外網無法通過公網ip訪問的解決辦法

通過公網ip訪問雲伺服器

[樂意黎原創]阿里雲ECS雲伺服器未新增安全組規則設定導致通過公網IP地址不能訪問

阿里雲ecs伺服器通過公網ip訪問不了tomcat(8080埠)的解決辦法

路由器埠對映後公網正常訪問而區域網無法通過公網IP訪問

騰訊雲——通過公網IP訪問不到網站解決辦法

用Nginx採集日誌通過flume將日誌檔案儲存到HDFS上

flume採集方案nginx日誌到hdfs上

解決Flume採集資料時在HDFS上產生大量小檔案的問題

關於從kafka采集數據到flume，然後落盤到hdfs上生成的一堆小文件的總結

通過FSDataOutputStream向HDFS上寫數據

內網通過域名及公網IP訪問WWW服務器情況匯總

幾個可以通過curl查詢公網IP的站點

aliyun linux下寫python flask,無法通過瀏覽器訪問公網ip

通過flume將日誌下沉到hdfs

在宿主機上通過NAT模式給kvm虛擬機器配置公網IP

內網客戶通過公網域名/ip 訪問內網web伺服器出錯

flume通過公網ip採集到hdfs上

相關推薦