All I know about A/B Test (1) : 均值型指標與比值(率)型指標的計算區別
阿新 • • 發佈:2021-03-17
因為最近在找實習,所以打算把自己之前學過的關資料分析的知識總結(複習)一下。在總結A/B test時,我發現中文網際網路中關於A/B test的總結已經很多了,但是對於均值型指標和比值(率)型指標在設計實驗、計算統計量時的區別卻沒有一個很明確的總結。甚至有的文章給出的計算公式語焉不詳、前後矛盾,計算樣本數量給的是均值型指標的計算公式,計算Z值時又給出了比值(率)型指標的計算公式。
### 均值型指標和比值(率)型指標
在網際網路資料分析中,有許多指標是資料分析師所關心的,對於不同的資料分析任務需要選取合適的指標。對A/B test而言,這些指標可以分為兩類
+ 比值(率)型,如點選率、轉化率等
+ 均值型,如人觀看時長等
需要注意的是,在統計學中,這兩類指標的假設檢驗是不同的。這種不同主要體現在三個方面:效應量(Effect size)的計算、所需樣本量的計算以及Z檢驗統計量的計算。
### 所需樣本量
在給出計算樣本量之前,首先介紹一下樣本量的四個影響因素,分別是:
+ 顯著性水平(α):顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度
+ 統計功效(1 – β):統計功效意味著避免犯二類錯誤的概率,這個值越大,需要的樣本量也越大
+ 均值差異($\mu_1, \mu_2$):如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著
+ 標準差(σ):標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果
一個A/B test需要的樣本量就由四個指標進行計算:
+ 比值(率)型指標
$$
N = \frac{(z_{1-\alpha/2}\sqrt{2\frac{p_1 +p_2}{2}(1-\frac{p_1 +p_2}{2})} +z_{1-\beta}\sqrt{p_1(1-p_1)+ p_2(1-p_2)} )^2}{(p_1-p_2)^2}
$$
其中$p_1,p_2$分別表示兩組樣本的比值型指標。上述方法為R和G\*power中使用公式,其他工具略有不同,更多比值類樣本量計算方法,參考[[2](https://jeffshow.com/caculate-abtest-required-sample-size.htm)]。
+ 均值型指標
$$
N_1 = kN_2
$$
$$
N_2 = (1+ \frac{1}{k})(\sigma\frac{z_{1-\alpha/2}+ z_{1-\beta}}{\mu_1 - \mu_2})^2
$$
其中$N_1,N_2$ 分別表示兩組樣本數量;$z_{1-\alpha/2},z_{1-\beta}$ 通過$z$分佈計算;$\mu_1,\mu_2$ 分別為當前均值指標和預估改進後均值指標(或者期望檢測到的指標變化)。重點是標準差$\sigma$ ,實驗前很難知道其大小,一般可以根據經驗值預估。
### 效應量(Effect size)
效應量又稱效應值,提供了對效應大小的具體測量,也就是說反映了具體效果的大小。
+ 比值(率)型指標
$$
es = 2(arcsin(\sqrt{p_1})- arcsin(\sqrt{p_2}))
$$
+ 均值型指標
$$
es = \frac{\mu_1 - \mu_2}{\sigma_{pooled}} = \frac{\mu_1 - \mu_2}{\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}}
$$
其中$s_1, s_2$ 分別表示兩組樣本的標準差.
### Z檢驗統計量
+ 比值(率)型指標
+ 商務與經濟統計[1]中給出的方法
$$
z = \frac{\overline{p}_1 - \overline{p}_2}{\sqrt{\overline{p}(1-\overline{p})(\frac{1}{n_1}+\frac{1}{n_2})}}
$$
$$
\overline{p} = \frac{n_1\overline{p}_1 + n_1\overline{p}_1}{n_1 + n_2}
$$
+ 網路中給出的方法:
$$
z = \frac{(p_1 - p_2) - (\mu_1-\mu_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}}
$$
找了好久沒有找到推導,個人看法是把比值型指標看做伯努利分佈,則根據中心極限定理,$B(1,p)\sim N(p,p(1-p))$,然後從均值型指標公式推導過來。
+ 均值型指標
$$
z = \frac{(\overline{x}_1 - \overline{x}_2) - (\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$$
以上就是我總結的關於均值型指標和比值(率)型指標在A/B test中的區別,如有遺漏和錯誤,望大家多多指正。
#### 參考文獻
[1]. 商務與經濟統計
[2]. [A/B測試系列文章之怎麼計算實驗所需樣本量](https://jeffshow.com/caculate-abtest-required-sample-size.html)
[3]. [A/B測試(A/B試驗)的概述、原理、公式推導、Python實現和應用](https://zhuanlan.zhihu.com/p/34