1. 程式人生 > >hive實現網站使用者行為分析指標

hive實現網站使用者行為分析指標



欄位解釋
accessDate    //訪問時間,精確到日期,String格式


accessTime  //訪問時間,精確到毫秒,int格式


accessHour   //訪問小時,區間為0-23,int格式 


requestMethod   //請求方式(get post 統計的時候沒用到),String格式


requestProtocal   //請求協議(http https,統計的時候沒用到),String格式


requestUrl   //請求URL地址,
e.g.:http://it18zhang.com/news/view?news_id=26,格式為String


requestIp   //請求IP地址,e.g.:192.168.1.1,String格式


returnStatus   //返回狀態(不瞭解,統計的時候沒用到),String格式


referUrl   //上一跳URL地址,
e.g.:http://www.baidu.com/s?wd=ggg&xxxx, 格式為String


referDomain   //上一跳域名,e.g.: baidu.com,String格式


userOrigin   //使用者入口地址,e.g.:http://www.baidu.com, 格式為String
(這個不太瞭解,但是根據originWord覺得應該是搜尋引擎)


originWord   //入口關鍵字,e.g.:it18zhangit18zhang,格式為String


browser   //瀏覽器,e.g.:FirefoxChrome,格式為String


browserVersion   //瀏覽器版本,e.g.:51.050.1,格式為String


operateSystem   //作業系統,e.g.:Windows10macOSUbuntu,格式為String


ipNumber   //IP數,(這個不瞭解,統計時候沒用到),int格式


userProvince   //使用者省份,String格式


screenSize   //螢幕尺寸,e.g.:1366x768,String格式


screenColor   //螢幕顏色,e.g.:redbluegreen,String格式


pageTitle   //頁面標題,e.g.:Python,BigData,String格式


siteType   //站型,(不太瞭解,預設為0),String格式


userFlag   //使用者標示,從cookie中提取,相當於userID,String格式


visitFlag   //訪問標示, 從cookie中提取,相當於sessionID,String格式


sFlag   //(不太清楚是做什麼的,統計沒有用到,分為1和0),String格式


timeOnPage//頁面停留時間,精確到毫秒,int格式








以access_day(進入時間)為分割槽表,建立外部表
create external table users(
accessDate    string,
accessTime  int,
accessHour   int,
requestMethod   string,
referUrl   string,
requestProtocal   string,
returnStatus   string,
requestUrl   string,
referDomain   string,
userOrigin   string,
originWord   string,
browser   string,
browserVersion   string,
operateSystem   string,
requestIp   string,
ipNumber   int,
userProvince   string,
screenSize   string,
screenColor   string,
pageTitle   string,
siteType   string,
userFlag   string,
visitFlag   string,
sFlag   string,
timeOnPage int)
partitioned by (access_day string)
row format delimited
fields terminated by ' '

stored as textfile;



load data local inpath '/home/hadoop/data/20160101.txt'  overwrite into table users partition (access_day='20160101');
load data local inpath '/home/hadoop/data/20160601.txt'  overwrite into table users partition (access_day='20160601');
load data local inpath '/home/hadoop/data/20170601.txt'  overwrite into table users partition (access_day='20170601');
load data local inpath '/home/hadoop/data/20170101.txt'  overwrite into table users partition (access_day='20170101');

統計方法
PV統計
1、按天統計PV
select accessdate ,count(1) from users where access_day='20160601' group by accessdate;
2、按小時統計PV
select accesshour, count(1) from users where access_day='20160601' group by accesshour;
3、統計每天每個省份PV
select accessdate, userprovince, count(1) from users where access_day='20160601' group by accessdate,userprovince;
4、每天每個省份 每個小時統計
select accessdate, userprovince, accesshour, count(1) from users where access_day='20160601' group by accessdate, userprovince, accesshour;
5、統計每天每個頁面的訪問量
select accessdate, requesturl, count(1) from users where access_day='20160601' group by accessdate, requesturl ;
UV統計
1、統計總的訪問人數,即訪客(UV)
select access_day,count (distinct requestIp) from users group by access_day;
2、統計當天平均訪問頁面數(頁/人=PV/UV)
select count(1) pvSta, count(distinct requestIp) uvSta from users where access_day='20160601';


select count(1)/count(distinct requestIp)  from users where access_day='20160601';


3、統計每個頁面訪客數和最早時間和最晚時間
Select requesturl, count(distinct requestIp) visitCount, min(accessTime) firstAccessTime, max(accessTime) recentAccessTime from users where access_day='20160601' group by  requestUrl order by  visitCount desc;
網站停留時間統計
平均網站停留時間=網站總停留時間/會話的數量(訪次)
//注意,本時間資料型別為int,為了方便講解業務,故直接把兩時間資料進行相減,具體業務還需實現使用者自定義函式(UDF)把int轉換為時間資料並進行相關操作。
1、每個訪客每天的網站停留時間=最後一次時間-首次訪問時間
create view pageTime (id,visitKeepTime) as select requestIp, ceil((max(accessTime) - min(accessTime))/1000) visitKeepTime from users where access_day='20170601' group by requestIp;  bug
select * from pageTime;
2、根據第一步的資料,統計分析網站的使用者平均停留時間
select avg(visitKeepTime) from pageTime;
客戶裝置相關資訊統計
1、瀏覽器比例分析,訪問量。統計每個瀏覽器對應的版本有多少人訪問
select browser, browserVersion, count(distinct requestIp) staCount from users e where siteType='0' and access_day='20160601' group by browser,browserVersion order by browser,browserVersion;
2、作業系統統計,訪問量。統計每個操作有多少人使用
select operateSystem,count(distinct userflag) from users where siteType='0' and  access_day='20160601' group by operateSystem order by operateSystem
3、螢幕顏色統計,訪問量。有多少人使用
Select screenColor,count(distinct userflag) from users where siteType='0' and  access_day='20160601' group by screenColor order by screenColor
4、螢幕尺寸,訪問量。有多少人使用
Select screenSize,count(distinct userflag) from users where siteType='0' and  access_day='20160601' group by screenSize order by screenSize
來源統計
1、來源關鍵字統計。統計每個關鍵字使用的次數
select originWord, count(1) staCount from users where siteType='0' and  access_day='20160601' and originWord!='-' group by originWord order by staCount desc;
2、熱門入口網站地址。
select userOrigin, count(1) staCount from users where siteType='0' and  access_day='20160601' group by userOrigin order by staCount desc;
3、熱門標題統計
select pageTitle, count(1) staCount from users where siteType='0' and  access_day='20160601' group by pageTitle order by staCount desc;
使用者地區訪問量分佈
1、主要統計每個省份的訪問量
Select userprovince, count(1) from users where siteType='0' and access_day='20160601' group by userProvince;
2、統計每個省份訪客數
select userprovince, count(distinct requestIp) from users where siteType='0' and access_day='20160601' group by userProvince;




使用者訪問相關資訊 留存率 
1、當日回訪人數佔比
即一天內多次訪問網站(產生了多個會話session)的獨立訪客數。
select count(distinct requestIp) from (select requestIp, count(requestIp) visitNum from users where siteType='0' and access_day='20160601' group by requestIp) a where a.visitNum > 1;
2、訪客平均訪問頻度
平均每個獨立訪客一天內訪問網站的次數(產生的session個數),訪客平均訪問頻度=訪問次數/獨立訪客。
select requestIp, count(1)/count(distinct requestIp)  from users where siteType='0' and access_day='20160601' group by requestIp;
3、獨立使用者平均訪問時長
平均每次訪問(會話)在網站上的停留時間。平均訪問時長=訪問時長/訪問次數。體現網站對訪客的吸引程度。
select sum(visitKeepTime)/count(distinct requestIp) from (select requestIp, ceil((max(accessTime) - min(accessTime))/1000) visitKeepTime from users where access_day='20170601' group by requestIp) a ;  session 
4、平均訪問深度   
平均每次訪問(會話)產生的PV。平均訪問深度=瀏覽次數/訪問次數。體現網站對訪客的吸引程度。
select a.pv/b.visitNum from (select count(1) pv from users where access_day='20160601') a ,(select count(distinct requestIp) visitNum from users  where access_day='20160601') b;
5、人均瀏覽頁面
select a.pv/b.userNum from (select count(1) pv from users where access_day='20160601') a ,(select count(distinct requestIp) userNum from users  where access_day='20160601') b;
6、新增獨立訪客
select count(distinct requestIp) from (select requestIp, min(cast(accessDate as int)) edate from users group by requestIp) a where a.edate = 20160601 And Flag=1;


select count(distinct requestIp) from users where sFlag=1; 


7.來路域名
  select referUrl,count(*) from users group by referUrl;

相關推薦

hive實現網站使用者行為分析指標

欄位解釋accessDate    //訪問時間,精確到日期,String格式accessTime  //訪問時間,精確到毫秒,int格式accessHour   //訪問小時,區間為0-23,int格式 requestMethod   //請求方式(get post 統計的

Hive實現交叉二維分析的小語句

  1. 梳理出你要的列和行維度 列維度: 每一週 行維度: 年級 + 學科 + 班型 2. 對資料按周增序進行聚合 (即根據列維度) ,生成list concat_ws 和 collect_list (collect_set 會去重後再聚合)  順序隨機 sort_arr

JVM:鎖實現(synchronized&JSR166)行為分析和相關原始碼

JVM中有這樣一段註釋: // The base-class, PlatformEvent, is platform-specific while the ParkEvent is // platform-independent. PlatformEvent provid

網站分析指標

過程 銷售 質量 計算 網站 visit 電腦 訪客 離開 網站分析指標 網站分析中都用到哪些衡量指標?又如何分析這些指標呢?舉個例子來說明,如果把一個網站比作一家超市,運營網站就像打理超市的生意,那麽目標就是讓訪客多停留、多購買、多辦幾張會員卡。為了達成這個目標,我們先

淺析網站分析的運營分析指標

增加用戶 網站流量 金融保險 中間 頁面設計 精準營銷 包括 tex 流量 作者:網舟科技(劉揚欽) 一、電商網站數據分析流程: (1)數據收集:這個階段是收集基本的基本數據。通常,這些數據是事物的計數。這個階段的目標是收集數據。 (2)處理數據到信息:這個階段通常需要計數

通過抓包,實現Python模擬登陸各網站,原理分析

瀏覽器中 cda class 登陸 驗證 查詢 圖片 自動化 cap 一、教程簡介 1.1 基本介紹 通過分析登陸流程並使用 Python 實現模擬登陸到一個實驗提供的網站,在實驗過程中將學習並實踐 Python 的網絡編程,Python 實現模擬登陸的方法,使

網站流量與效能分析指標——PV、UV、PR、IP、QPS、併發數、吞吐量、響應時間

QPS:每秒查詢率(Query Per Second) ,每秒的響應請求數,也即是最大吞吐能力。 QPS = req/sec = 請求數/秒 QPS統計方式 [一般使用 http_load 進行統計] QPS = 總請求數 / ( 程序總數 * 請求時間 ) QPS:單個程序每秒請求伺服器的成功次數

大資料技術學習筆記之網站流量日誌分析專案:資料採集層的實現3

一、資料採集業務     -》資料來源         -》網站:使用者訪問日誌、使用者行為日誌、伺服器執行日誌         -》業務:

Spark Streaming實戰對論壇網站動態行為pv,uv,註冊人數,跳出率的多維度分析,實時統計每天pv,uv的sparkStreaming結合redis結果存入mysql供前端展示

論壇資料執行程式碼自動生成,該生成的資料會作為Producer的方式傳送給Kafka,然後SparkStreaming程式會從Kafka中線上Pull到論壇或者網站的使用者線上行為資訊,進而進行多維度的線上分析 資料格式如下: date:日期,格式為yyyy-MM-dd ti

自學大資料:Hive基於搜狗搜尋的使用者日誌行為分析

前言 ”大資料時代“,“大資料/雲端計算”,“大資料平臺”,每天聽到太多的大資料相關的詞語,好像現在說一句話不跟大資料沾邊都不好意思說自己是做IT的。可能這與整個IT圈子的炒作也有關聯,某一個方面來看其實就是一營銷術語。很多朋友就想問,我想做大資料,但是沒有這個條件,沒有這

網站使用者行為資料統計與分析之二:資料寫入mongodb

    接著上一篇博文,我再補充一下:     在js中收集到使用者行為資料之後呢,我們要在後臺對資料進行處理,怎麼處理?在實際專案中我分兩條路走:     一、直接寫入mongodb,隨著電商網站規模越來越大,訪問量越來越高,這種非關係型資料庫可以有效地化解高併發的問題

深度學習助力實現智慧行為分析和事件識別

作者:趙放、杜勇、王洪鬆、吳子豐 行為識別是指通過分析視訊、深度感測器等資料,利用特定的演算法,對行人的行為進行識別、分析的技術。這項技術被廣泛應用在視訊分類、人機互動、安防監控等領域。行為識別包含兩個研究方向:個體行為識別與群體行為(事件)識別。近年來,深度攝像技術的發展使得人體運動的深度影象序列變得容

網站使用者行為資料統計與分析之一:埋點程式碼設計

    場景:電商     技術:js,jsp,jquery,jquery cookie etc     背景:現如今,銷售預測在提高企業經濟效益及決策支援水平的方面佔有重要的地位。隨著企業資訊化技術水平的提高,企業銷售資料日益豐富,管理者對其中隱藏的銷售預測資訊的渴求愈來

網站使用者行為資料收集和分析方法

來源 為改善網站的可用性, 一般採用可用性工程方法, 其核心是以使用者為中心的設計方法論(UCD)。綜合介紹了目前國內外對於使用者行為資料收集和分析方法所進行的研究, 各種方法的特點, 並介紹一些利用相應方法所開發出的工具例項, 使得建設的網站更加符合使用者的

flume使用之flume+hive 實現日誌離線收集、分析

在如今網際網路行業中,資料的收集特別是日誌資料的收集已經成為了系統的標配。將使用者行為日誌或者線上系統生產的資料通過flume收集起來,存放到資料倉庫(hive)中,然後離線通過sql進行統計分析,這一套資料流的建設對系統有非常重要的意義。 1、思路: 1)線上系統通

【Python】實現網站備份檔案掃描+原始碼分析

一開始我用的requests庫的get方法 但是這種方法會自動下載檔案,所以不可取 後來發現urllib2的庫相對來說不錯 原始碼如下# coding = utf-8 import urllib2 i

網站流量與效能分析指標:PV/UV/PR/IP/QPS/併發數/吞吐量/響應時間

QPS: 每秒查詢率(Query Per Second) ,每秒的響應請求數,也即是最大吞吐能力。 QPS = req/sec = 請求數/秒 QPS統計方式 [一般使用 http_load 進行統計] QPS = 總請求數 / ( 程序總數 * 請求時間 ) QPS:

每天數百億使用者行為資料,美團點評怎麼實現秒級轉化分析

使用者行為分析是資料分析中非常重要的一項內容,在統計活躍使用者,分析留存和轉化率,改進產品體驗、推動使用者增長等領域有重要作用。美團點評每天收集的使用者行為日誌達到數百億條,如何在海量資料集上實現對使用者行為的快速靈活分析,成為一個巨大的挑戰。為此,我們提出並實現了一套面向海

【資料案例】每天數百億使用者行為資料,美團點評怎麼實現秒級轉化分析

6. 效果:上述方案目前在美團點評內部已經實際落地,穩定執行超過半年以上。每天的資料有幾百億條,活躍使用者達到了上億的量級,埋點屬性超過了百萬,日均查詢量幾百次,單次查詢的TP95時間小於5秒,完全能夠滿足互動式分析的預期。相比於原有sql方案,達到了3-4個數量級的效能提升。

網站資料分析指標體系

轉載自:http://www.mybloglog.com/ 【編者注】網站流量統計,是指對網站訪問的相關指標進行統計。本文整理自網友分享的一份Word文件,主要介紹了網站分析的KPI指標、資料分析方法、網站分析工具介紹和對比等。 一、總論 1. 概念 網站流量統