【圖文詳細 】Flume 資料採集元件——收集工具
2、專業的資料收集工具
2.1、Chukwa
Apache Chukwa 是 Apache 旗下另一個開源的資料收集平臺,它遠沒有其他幾個有名。Chukwa 基於 Hadoop 的 HDFS 和 MapReduce 來構建(顯而易見,它用 Java 來實現),提供擴充套件性和 可靠性。Chukwa 同時提供對資料的展示,分析和監視。很奇怪的是它的上一次 Github 的更 新事 7 年前。可見該專案應該已經不活躍了。
官網:http://chukwa.apache.org/
2.2、Scribe
Scribe 是 Facebook 開源的日誌收集系統,在 Facebook 內部已經得到的應用。它能夠從各種 日誌源上收集日誌,儲存到一箇中央儲存系統(可以是 NFS,HDFS,或者其他分散式檔案系 統等)上,以便於進行集中統計分析處理。
官網:https://www.scribesoft.com/
2.3、Fluentd
Fluentd 是另一個開源的資料收集框架。Fluentd 使用 C/Ruby 開發,使用 JSON 檔案來統一日 志資料。它的可插拔架構,支援各種不同種類和格式的資料來源和資料輸出。最後它也同時提 供了高可靠和很好的擴充套件性。
官網:https://www.fluentd.org/
2.4、Logstash
Logstash 是著名的開源資料棧 ELK(ElasticSearch,Logstash,Kibana)中的那個 L。幾乎在大 部分的情況下 ELK 作為一個棧是被同時使用的。所有當你的資料系統使用 ElasticSearch 的情 況下,Logstash 是首選。Logstash 用 JRuby 開發,所以執行時依賴 JVM。
官網:https://www.elastic.co/cn/products/logstash
2.5、Apache Flume
Flume 是 Apache 旗下,開源,高可靠,高擴充套件,容易管理,支援客戶擴充套件的資料採集系統。 Flume 使用 JRuby 來構建,所以依賴 Java 執行環境。Flume 最初是由 Cloudera 的工程師設計 用於合併日誌資料的系統,後來逐漸發展用於處理流資料事件。
官網:http://flume.apache.org/