在線日誌分析項目解讀
阿新 • • 發佈:2017-09-21
日誌
1,日誌的采集
從flume agent 上的數據一般分到兩條線上一條是kafka 集群 ,後期可以用流式處理(spark streaming 或storm 等等)一條是到hdfs,後期可以用hive處理,
業界叫lambda架構 architecture (一般公司的推薦系統,就是用這種架構)
flume-ng agent 采集收集日誌後,聚合在一個節點上(也可以不聚合)
為什麽要聚合?為什麽不直接寫到kafka集群?
假如公司規模比較大,有無數個flume節點,這麽多都連kafka,會增加復雜度,有個聚合節點(會是多個節點組成,防止單節點掛了),還可以對日誌格式統一處理,篩選不要的數據
hdfs 可以永久保存數據,mr 可以處理多久數據都行
kafka 集群數據可以存儲一定時間不能長期存儲,sparkstreaming 只能處理一定時間訪問內數據
storm 流
數據源 nginx 日誌,mysql 日誌,tomcat 日誌等等->
flume ->
kafka 消息件 消息發送到這裏緩存數據一段時間 ->
spark streaming+spark sql on yarn cluster (實時計算) -> 存儲
1.->redis adminLTE + flask 前端組件 + echarts3 集成到監控的系統上
2.->influxdb 時序分布式數據庫 grafana 可視化組件(這兩種結合比較好)
(elk kibana )
存儲+可視化分析
本文出自 “我是程序我最大” 博客,請務必保留此出處http://skinglzw.blog.51cto.com/10729606/1967271
在線日誌分析項目解讀