用Fluentd實現收集日誌到HDFS（上）

阿新 • • 發佈：2018-12-11

版權宣告：本文來自行者(http://blog.csdn.net/liuyuan185442111)，轉載請註明出處。 https://blog.csdn.net/liuyuan185442111/article/details/47057571

Fluentd是一個實時日誌收集系統，它把日誌作為JSON stream，可以同時從多臺server上收集大量日誌，也可以構建具有層次的日誌收集系統。 Fluentd易於安裝，有靈活的外掛機制和緩衝，支援日誌轉發。它的特點在於各部分均是可定製化的，可以通過簡單的配置，將日誌收集到不同的地方。 Fluentd通過hadoop中的webHDFS與HDFS進行通訊，所以在配置Fluentd時，一定要保證webHDFS能正常通訊。

系統環境：CentOS 6.5 叢集環境：Hadoop 2.2.0 參考Fluentd官網。

安裝

td-agent是Fluentd的一個穩定版本。 CentOS下可以直接執行以下命令安裝：

curl -L https://td-toolbelt.herokuapp.com/sh/install-redhat-td-agent2.sh | sh

啟動

管理指令碼是：/etc/init.d/td-agent 可通過/etc/init.d/td-agent start或service td-agent start來啟動配置檔案：/etc/td-agent/td-agent.conf 重新載入配置檔案：service td-agent reload

td-agent的日誌檔案：/var/log/td-agent/

配置

Fluentd自帶多個輸入外掛和輸出外掛，這裡先實現收集本地日誌到本地檔案。

## File input
<source>
  type tail
  path /var/log/mytemp.log
  pos_file /var/log/td-agent/mytemp.log.pos
  format none
  tag td.temp
</source>
#其中：
#1.type tail: tail方式是Fluentd內建的輸入方式，其原理是不停地從原始檔中獲取新的日誌，相當於tail –f命令。
#2.path: 指定日誌檔案位置。
#3.pos_file：儲存path中日誌檔案狀態的檔案。
#4.format none: 指定使用何種日誌解析器。
#5.tag: tag被用來對不同的日誌進行match。

## File output
<match td.temp>
  type file
  path /var/log/td-agent/access
</match>

---------------------

本文來自 liuyuan185442111 的CSDN 部落格 ，全文地址請點選：https://blog.csdn.net/liuyuan185442111/article/details/47057571?utm_source=copy

當mytemp.log有更新時，更新內容會新增到access檔案中。

輸出到HDFS

然後我嘗試將收集的日誌存放到HDFS上。 Fluentd通過webhdfs與HDFS通訊，所以需要開啟webhdfs。設定Hadoop，修改配置檔案hdfs-site.xml，加入：

<property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
</property>

<property>
  <name>dfs.support.append</name>
  <value>true</value>
</property>

<property>
  <name>dfs.support.broken.append</name>
  <value>true</value>
</property>

---------------------

本文來自 liuyuan185442111 的CSDN 部落格 ，全文地址請點選：https://blog.csdn.net/liuyuan185442111/article/details/47057571?utm_source=copy

重啟Hadoop，新建一個目錄用來存放日誌：

hadoop fs -mkdir /log/
hadoop fs -chmod 777 /log/

td-agent配置檔案中source部分不變，修改match部分：

<match td.temp>
  type webhdfs
  host namenodehost
  port 50070
  path /log/a.log
  flush_interval 5s
</match>
# flush_interval標識資料寫入HDFS的間隔

---------------------

本文來自 liuyuan185442111 的CSDN 部落格 ，全文地址請點選：https://blog.csdn.net/liuyuan185442111/article/details/47057571?utm_source=copy

當td-agent與namenode在一臺物理機上時可以正常執行，當不在一臺物理機上時，報“Connection refused”錯誤。

參考文獻

接下來： td-agent與namenode是否必須在一臺物理機上？現在採用了append的方式，對於HDFS來說效率較低，可以設定一箇中間節點，收集了其他節點的日誌之後，彙總成大檔案，然後上傳到HDFS。 td-agent的配置檔案格式。 File Input和WebHDFS Output的具體細節。

用Fluentd實現收集日誌到HDFS（上）

安裝

啟動

配置

輸出到HDFS

參考文獻

用Fluentd實現收集日誌到HDFS（上）

用MVC實現簡單的檔案（圖片）上傳下載功能

springboot 實現攔截器許可權過濾，以及用攔截器實現操作日誌功能（二）

用 jQuery 實現表單驗證（轉載）

混合雲架構，如何實現混合雲落地?（上）

Python用列表實現棧，佇列（二）

Python用列表實現棧，佇列（一）

vue用i18n實現多語言支援（國際化）

大資料離線-HDFS（上）

用qemu實現tsi107橋摸索（三）

用節點實現一個棧結構（stack）

SpringBoot通過AOP實現系統日誌記錄（三）-Mapper層日誌監控及自定義異常攔截

GitHub圖形化客戶端實現Git合併分支（上）

用c#實現螢幕錄影功（(成功）

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

實現react-router v4（上）

用Java實現面向物件程式設計（入門）

用css3實現各種圖示效果（2）

Java for Web學習筆記（九十）：訊息和叢集（5）利用websocket實現訂閱和釋出（上）

基於servlet併發的日誌儲存（上）

用Fluentd實現收集日誌到HDFS（上）

安裝

啟動

配置

輸出到HDFS

參考文獻

相關推薦