關於使用者留存率的計算的幾個層次-費元星

阿新 • • 發佈：2020-09-04

最近接到一個需求，需要統計使用者留存率，而且要一次統計多個模組，多個日期的留存率，那如何通過一段hive(SQL)來實現該需求呢，在網上看到一篇很精妙的文章，參考這篇文章實現了需求，可以說是目前見過的一次性統計多個時間區間留存率的最佳實踐了，感謝樓主的經驗分享，好東西，多記錄，多分享！

首先使用者留存率一般是面向新增使用者的概念,是指某一天註冊後的幾天還是否活躍,是以每天為單位進行計算的.

一般收到的需求都是一個時間段內的新增使用者的幾天留存

(1)找到這個時間段內的新增使用者(也可能含有地區啊的各種附加條件),一般在日活表中有記錄是否是新增狀態.
　　注意,需要以天為單位進行分組找出使用者的id.因為留存率都是以每天為單位進行計算的.

　　表結構(register_date,user_id)

(2)找到這個時間段內的活躍使用者(active_date,user_id)

(3)以 1表為主表left join 2表以user_id為關聯鍵,統計留存數

　　這樣後的記錄型別為:register_date,user_id,active_date

　　register_date為新增日期,即留存率的單位天.

　　user_id為使用者id,distinct user_id來計算使用者數

留存率怎麼算?
　　active_date - register_date = 1,說明註冊的次日使用者是活躍的,所以count+1
　　所以我們只要關注 active_date 和 register_date 相差天數即可統計留存數

　　取天數差的時候用datediff(active_date,register_date)來計算,active_date 和 register_date 的格式為 yyyy-MM-dd

(4)計算留存率

程式碼模板：原文中存在一些小錯誤，已改正，group by 中的數字我這邊是報錯的，所以可直接替換為物件的列名

select dim_date
  ,node_id
  ,total_cnt
  ,concat_ws('% | ', cast(round(dif_1cnt*100/total_cnt, 2) as string), cast(dif_1cnt as string))
  ,concat_ws('% | ', cast(round(dif_2cnt*100/total_cnt, 2) as string), cast(dif_2cnt as string))
  ,concat_ws('% | ', cast(round(dif_3cnt*100/total_cnt, 2) as string), cast(dif_3cnt as string))
  ,concat_ws('% | ', cast(round(dif_4cnt*100/total_cnt, 2) as string), cast(dif_4cnt as string))
from (
  select p1.state dim_date,
  p1.node_id,
  count(distinct p1.user_id) total_cnt,
  count(distinct if(datediff(p3.state,p1.state) = 1, p1.user_id, null)) dif_1cnt  ,
  count(distinct if(datediff(p3.state,p1.state) = 2, p1.user_id, null)) dif_2cnt  ,
  count(distinct if(datediff(p3.state,p1.state) = 3, p1.user_id, null)) dif_3cnt  ,
  count(distinct if(datediff(p3.state,p1.state) = 4, p1.user_id, null)) dif_4cnt
  from (
    select
    from_unixtime(unix_timestamp(cast(partition_date as string), 'yyyyMMdd'), 'yyyy-MM-dd') state,
    user_id，
    node_id
    from user_active_day
    where partition_date between date1 and date2
    and user_is_new = 1
    group by 1,2,3 --如果不行用欄位替換，group by去重優於distinct
  )p1 left outer join (   --日新增使用者名稱單(register_date,user_id)
    select
    from_unixtime(unix_timestamp(cast(partition_date as string), 'yyyyMMdd'), 'yyyy-MM-dd') state,
    user_id,
    node_id
    from active_users
    where partition_date between date1 and date2
    group by 1,2,3
  )p3 on (p3.user_id = p1.user_id and p3.node_id=p1.node_id) --期間活躍使用者(active_date,user_id)
group by 1,2
) p4;

　　#################################################################################

分割線：如上是計算留存率的一種通用方法（如上抄來的，學來的），但當用戶和資料量特別大時，或者業務調整頻繁時，效能還是非常差。

2020年初接到鑫哥一個任務，計算整體垂類的留存率資料，背景：為LTV等其他指標做基礎資料，指導業務發展，要求：支援動態業務調整和查詢秒級返回。

通常留存率指標都是作用在新使用者上的，首先第一步明確新使用者的定義：集團給的規範是一年內未登入的使用者即為新使用者，所有時間比較係數為365。

調研業界，騰訊的IMEI分析，美團的訂單分析，都在探索bitmap，所以嘗試使用bitmap完成此需求，開源實現的。

上手比較快的，可以用doris，我廠開源的產品，技術還是不出的，連結：http://doris.apache.org/master/zh-CN/administrator-guide/alter-table/alter-table-bitmap-index.html#%E5%8F%96%E6%B6%88%E4%BD%9C%E4%B8%9A

https://www.bookstack.cn/read/ApacheDoris-0.12-zh/e46d8c8d445173f6.md

初始資料：原始日誌表

中間的結構：

最終的結構：

CREATE TABLE `pv_bitmap` (
  `dt` int(11) NULL COMMENT "",
  `page` varchar(10) NULL COMMENT "",
  `user_id` bitmap BITMAP_UNION NULL COMMENT ""
) ENGINE=OLAP
AGGREGATE KEY(`dt`, `page`)
COMMENT "OLAP"
DISTRIBUTED BY HASH(`dt`) BUCKETS 2;

關於使用者留存率的計算的幾個層次-費元星

最近接到一個需求，需要統計使用者留存率，而且要一次統計多個模組，多個日期的留存率，那如何通過一段hive(SQL)來實現該需求呢，在網上看到一篇很精妙的文章，參考這篇文章實現了需求，可以說是目前見過的一次性

使用者留存率計算

留存率作用使用者留存率體現使用者粘性，提高使用者留存率可創造更大的價值，通常觀察次日留存（1日留存）3日留存、7日留存、30日留存，根據不同的業務場景還有更久的週期。

使用者留存率R的由來以及留存率的計算

使用者留存率R的由來以及留存率的計算 R的由來開門見山假設我們某產品新增一批使用者，新增使用者總數為Num

oracle 計算兩個時間的間隔_Oracle 兩個時間內有幾個週末

技術標籤：oracle 計算兩個時間的間隔 --------------求兩個時間段內有幾天週末包含這兩個時間段

計算某月某日某時是一年裡（設計典型年）的第幾個小時的Python程式

技術標籤：數值傳熱Python程式設計小技巧python 上圖的第三列是指從一年的1月1日零時開始計數（幾小時數），某月某日某時在這一年裡是第幾時。另外，上圖的一年是按設計中的典型年來計算，所以2月份是按28天計算

計算兩個非負整數的最大公約數------歐幾里得演算法C++實現

技術標籤：演算法c++演算法兩個非負整數的最大公約數可以通過歐幾里得演算法計算得到。

C語言--用動態陣列程式設計輸入任意m個班學生（每班n個學生）的某門課的成績，計算最高分，並指出具有該最高分成績的學生是第幾個班的第幾個學生。其中，m和n的值由使用者從鍵盤任意輸入（不限定m和n的上限值）。

技術標籤：Cc語言c語言用動態陣列程式設計輸入任意m個班學生（每班n個學生）的某門課的成績，計算最高分，並指出具有該最高分成績的學生是第幾個班的第幾個學生。其中，m和n的值由使用者從鍵盤任意輸入（不限定

計算兩個時間之間相差幾天、月、年

ChronoUnit類 //獲取當前時間（2021-06-22） LocalDate today = LocalDate.now(); //將String轉LocalDateTime

Java 計算加幾個月之後的時間

Java 計算加幾個月之後的時間 public static DategetAfterMonth(String inputDate,int number) {Calendar c = Calendar.getInstance();//獲得一個日曆的例項SimpleDateFormat sdf = new SimpleDateFormat(\"yyyy-MM

時光卷軸，國內跨境電商ToB Saas創業新星AfterShip內部信：通過淨收入留存率理解複利，做好客戶成功三個建議

最近有很多候選人和合作夥伴來到我們辦公室之後，都驚歎於我們的辦公環境、配套設施和對細節的要求，稱讚我們是一家非常注重工作體驗和效率的公司，甚至有人說我們比很多頭部網際網路公司都要好。

索尼：PS5 主機將“在幾個月內”支援 VRR 可變重新整理率，無需遊戲優化也能開啟

3 月 23 日訊息，索尼今日宣佈，最新的 PS5 和 PS4 系統更新將在今日於全球推出，VRR 可變重新整理率的支援將在未來幾個月內推出。首先，今日的更新將為全球社群帶來一些粉絲所要求的功能，例如在 PS5 與 PS4 主機上

幾個iOS開發的小tips

clipsToBounds vs masksToBounds clipsToBounds clipsToBounds 決定子檢視的顯示範圍：設定為YES時，子檢視超出部分將被剪裁，不會顯示；設定為NO則不會剪裁。

不會Python的這幾個庫，我都不敢說會爬蟲

來源：JAVAandPython君 ☞ 分享：最全最新的Python學習大禮包 ☜ 很多朋友不知道Python爬蟲怎麼入門，怎麼學習，到底要學習哪些內容。今天我來給大家說說學習爬蟲，我們必須掌握的一些第三方庫。

總結一下Tomcat碰到的幾個問題

大概率是因為自己對Tomcat以及jvm不熟；今天上午一直在碰到問題解決問題，把問題記錄一下，理解一下為什麼會出現這種問題。web專案啟動的時候：

Java併發程式設計（一）——不得不說的幾個概念

1.同步（Synchronous）和非同步（Asyncronous）同步和非同步通常用來形容一次方法呼叫。同步呼叫一旦開始，呼叫者必須等到方法返回後才能進行後續操作；而非同步呼叫更像是一次訊息傳遞，呼叫的方法會立刻返回，呼叫

從零寫一個編譯器（三）：語法分析之幾個基礎資料結構

專案的完整程式碼在 C2j-Compiler 寫在前面這個系列算作為我自己在學習寫一個編譯器的過程的一些記錄，演演算法之類的都沒有記錄原理性的東西，想知道原理的在龍書裡都寫得非常清楚，但是我自己一開始是不怎麼看得

3個Spring Boot核心註解，你知道幾個？

Spring Boot 核心註解講解 Spring Boot 最大的特點是無需 XML 配置檔案，能自動掃描包路徑裝載並注入物件，並能做到根據 classpath 下的 jar 包自動配置。

實現API管理系統的幾個重要關鍵詞

管理API的需求源自於Web API開展業務。從2006年開始，然後逐漸成熟，並在2016年之前進入市場。無論是通過代理現有API的管理閘道器、本身作為用於部署API本身的閘道器的一部分，還是作為連線層在程式碼中，API管理就是

6種微服務RPC框架，你知道幾個？

一、前言開源 RPC 框架有哪些呢？一類是跟某種特定語言平臺繫結的，另一類是與語言無關即跨語言平臺的。

4個影響快取命中率的因素，你知道幾個？

一、快取命中率的介紹命中：可以直接通過快取獲取到需要的資料。不命中：無法直接通過快取獲取到想要的資料，需要再次查詢資料庫或者執行其它的操作。原因可能是由於快取中根本不存在，或者快取已經過期。

關於使用者留存率的計算的幾個層次-費元星

相關推薦