專案-日誌分析平臺

阿新 • • 發佈：2019-12-31

日誌分析平臺(練手專案)

練習hdfs mr hive hbase

各種公司都需要，例如電商、旅遊(攜程)、保險種種。
資料收集-資料清洗-資料分析-資料視覺化。
資料：使用者的行為日誌，不是系統產生的日誌。

資料量

如何談資料量

站長工具:PV(頁面訪問量) UV(日均IP訪問)
說條數。
大小慎重說不要瞎說。

技術選型

儲存引擎：hbase/hdfs
分析引擎(計算)：mr/hive 為了練手用MR
視覺化：不做。

模組

使用者基本資訊分析模組

分析新增使用者，活躍使用者，總使用者，新增會員，活躍會員，會話分析等。
公司開始的錢都花在推廣上。
所有指標值都是離線跑批處理。而且沒必要做實時，每天早上來看指標就好了。

瀏覽器來源分析

時間和瀏覽器兩個維度

地域分析模組

調整倉庫，根據IP定位

使用者訪問深度分析模組

某一個會話、某個使用者訪問的頁面個數。業務強相關。

外鏈資料分析模組

廣告投放。拼多多砍一刀

資料來源

使用nginx的log module

nginx

upstream 中下劃線坑？！

log module

內嵌變數
- $remote_host 遠端IP地址
- $request_uri 完整的原始請求行（帶引數）
log module
- $mesc 產生時間。單位有意思。

location

location檔案 location有精準匹配>正則匹配>字首匹配

js傳送日誌

用圖片發資料。請求一個圖片資源，裡面有引數給nginx抓到。

sendDataToServer : function(data) {
	
	alert(data);
	
	// 傳送資料data到伺服器，其中data是一個字串
	var that = this;
	var i2 = new Image(1,1);// <img src="url"></img>
	i2.onerror = function() {
		// 這裡可以進行重試操作
	};
	i2.src = this.clientConfig.serverUrl + "?" + data;
},複製程式碼

java程式碼傳送(訂單的成功或失敗)

傳送日誌到nginx，如果出現網路延遲等問題，不能讓後面的業務受到影響

開啟一個阻塞佇列，開一個執行緒從裡面一直取然後傳送。

// 只負責扔到佇列中。
public static void addSendUrl(String url) throws InterruptedException {
	getSendDataMonitor().queue.put(url);
}

// 第一次傳送 開啟一個執行緒 監聽佇列。
public static SendDataMonitor getSendDataMonitor() {
	if (monitor == null) {
		synchronized (SendDataMonitor.class) {
			if (monitor == null) {
				monitor = new SendDataMonitor();

				Thread thread = new Thread(new Runnable() {

					@Override
					public void run() {
						// 執行緒中呼叫具體的處理方法
						SendDataMonitor.monitor.run();
					}
				});
				// 測試的時候，不設定為守護模式
				// thread.setDaemon(true);
				thread.start();
			}
		}
	}
	return monitor;
}
複製程式碼

資料採集

將nginx的日誌通過flumesink到hdfs

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/data/access.log
a1.sources.r1.channels = c1


a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
# hdfs 中的目錄
a1.sinks.k1.hdfs.path = /project/events/%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 10k 滾動一個檔案
a1.sinks.k1.hdfs.rollSize = 10240
a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollCount = 0
# 預設是SequenceFile
a1.sinks.k1.hdfs.fileType = DataStream
複製程式碼

資料清洗

上MR程式碼。將hdfs->hbase

具體需不需要reducer是看需不需要。差別還是很大的。從map->reduce中間需要落一次盤。差別很大。

專案-日誌分析平臺

日誌分析平臺(練手專案) 練習hdfs mr hive hbase 各種公司都需要，例如電商、旅遊(攜程)、保險種種。

https://blog.csdn.net/wangkai_123456/article/details/84796903 https://blog.csdn.net/qq942477618/article/details/52951011?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai

日誌分析平臺ELK之日誌收集器filebeat

　　前面我們瞭解了elk叢集中的logstash的用法，使用logstash處理日誌挺好的，但是有一個缺陷，就是太慢了；當然logstash慢的原因是它依賴jruby虛擬機器，jruby虛擬機器就是用java語言開發的ruby虛擬機器，本身java程

CentOS7使用Elasticsearch+ Logstash+kibana快速搭建日誌分析平臺

CentOS7使用Elasticsearch+ Logstash+kibana快速搭建日誌分析平臺介紹：安裝logstash,elasticsearch,kibana三件套，搜尋程式一般由索引鏈及搜尋元件組成。索引鏈功能的實現需要按照幾個獨立的步驟依次完成

集約化日誌分析平臺（ELK+Flink）

為什麼用到ELK：一般我們需要進行日誌分析場景：直接在日誌檔案中 grep、awk 就可以獲得自己想要的資訊。但在規模較大的場景中，此方法效率低下，面臨問題包括日誌量太大如何歸檔、文字搜尋太慢怎麼辦、如何多維度查

手把手教你搭建實時日誌分析平臺

背景基於ELK搭建一個實時日誌分析平臺架構下載 filebeat:https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.13.1-linux-x86_64.tar.gz

打造0程式碼可定製的日誌分析平臺——秒雲日誌

目錄第1章搜尋--煥然一新................................................................................................................... 4

企業級實戰模組二：ELK+Filebeat+Kafka+ZooKeeper構建大資料日誌分析平臺案例（上）

企業級實戰模組三：ELK+Filebeat+Kafka+ZooKeeper構建大資料日誌分析平臺案例（下）

ELK實時日誌分析平臺環境部署--完整記錄

ELK實時日誌分析平臺環境部署--完整記錄在日常運維工作中，對於系統和業務日誌的處理尤為重要。今天，在這裡分享一下自己部署的ELK（+Redis）-開源實時日誌分析平臺的記錄過程（僅依據本人的實際操作為例說明，

fliebeat+kafka的ELK日誌分析平臺

目錄一.環境講解二.部署配置配置kafka叢集配置日誌輸出端配置logstash配置elasticsearch配置kibana四.kibana圖形操作建立索引設定圖形展示

Splunk：大資料智慧分析平臺&全能日誌分析利器

Splunk是什麼？從功能上講，Splunk是一款功能完善、強大的機器資料(MachineData)分析平臺，涵蓋機器資料收集、索引、搜尋、監控、分析、視覺化、告警等功能。之所以說是“平臺”而不僅僅是工具，是因為Splunk經過多

EFK日誌搜尋分析平臺搭建

一、基本介紹 1、ElestaicSearch 為開源搜尋引擎，負責資料的儲存及搜尋 2、kibana 為開源工具，提供介面給使用者進行搜尋操作

原創｜sonar+Jenkins 構建程式碼質量自動化分析平臺

1.Sonar 介紹 Sonar 是一個用於管理程式碼質量的開源工具，可以分析程式碼中的bug和漏洞以及Code Smells，支援20多種程式語言的檢測，如java，c/c++，python，php等語言，當前有超過85000家組織在使用sonar。Sonar

關於Mysql通用查詢日誌和慢查詢日誌分析

MySQL中的日誌包括：錯誤日誌、二進位制日誌、通用查詢日誌、慢查詢日誌等等。這裡主要介紹下比較常用的兩個功能：通用查詢日誌和慢查詢日誌。

nginx伺服器中access_log日誌分析與配置詳解

前言 nginx的log日誌分為：access log 和 error log 其中access log 記錄了哪些使用者，哪些頁面以及使用者瀏覽器、ip和其他的訪問資訊

springboot動吧專案日誌模組

1 專案簡介 1.1 概述動吧旅遊生態系統,應市場高階使用者需求，公司決定開發這樣的一套旅遊系統，此係統包含旅遊電商系統（廣告子系統，推薦子系統，評價子系統，商品子系統，訂單子系統，…），旅遊分銷系統(

GoAccess日誌分析工具

1.1 GoAccess簡介 GoAccess是一個非常良心的開源軟體，它的良心之處體現在如下方面：1）安裝簡單；2）操作容易；3）介面酷炫；GoAccess 官網https://goaccess.io

AWStats日誌分析系統

1.什麼是AWStats AWStats是一款功能強大且功能強大的免費工具，可以圖形方式生成高階Web，流媒體，ftp或郵件伺服器統計資訊。此日誌分析器用作CGI或命令列，並在幾個圖形網頁中顯示您的日誌包含的所有可能資訊。它使

【C++】一個實用的日誌分析工具

【C++】一個實用的日誌分析工具程式說明通過C語言巨集定義獲取時間、檔案、函式與行數；通過可變引數列表實現日誌內容的傳遞；C語言巨集定義包括：__FILE__、__FUNCTION__、__LINE__、__DATA__、__TIME__

專案-日誌分析平臺

日誌分析平臺(練手專案)

資料量

如何談資料量

技術選型

模組

使用者基本資訊分析模組

瀏覽器來源分析

地域分析模組

使用者訪問深度分析模組

外鏈資料分析模組

資料來源

nginx

log module

location

js傳送日誌

java程式碼傳送(訂單的成功或失敗)

資料採集

資料清洗

相關推薦