AB測試原理及樣本量計算的Python實現

阿新 • • 發佈：2020-10-12

前言

為了對比不同策略的效果，如新策略點選率的提升是否顯著，常需要進行A/B測試。但測試是有成本的，樣本量小時不能判斷出差異是否是由抽樣誤差引起，樣本量太大時如果效果不好則會造成難以挽回的損失。如何科學地選擇樣本量呢？需要了解A/B測試的統計學原理

一、 A/B測試的統計學原理

（一）大數定律和中心極限定理

A/B 測試樣本量的選取基於大數定律和中心極限定理。通俗地講：

1. 大數定律：當試驗條件不變時，隨機試驗重複多次以後，隨機事件的頻率近似等於隨機事件的概率。

2. 中心極限定理：對獨立同分布且有相同期望和方差的n個隨機變數，當樣本量很大時，隨機變數

近似服從標準正態分佈N(0,1)。

根據大數定律和中心極限定理，當樣本量較大（大於30）時，可以通過Z檢驗來檢驗測試組和對照組兩個樣本均值差異的顯著性

。

注：樣本量小於30時，可進行t檢驗。

（二）假設檢驗

在進行假設檢驗時，我們有兩個假設：原假設H0（兩個樣本沒有顯著性差異）和備擇假設H1（兩個樣本有顯著性差異）。相應地，我們可能會犯兩類錯誤：

第I類錯誤：H0為真，H1為假時，拒絕H0，犯第I類錯誤（即錯誤地拒絕H0）的概率記為alpha。

第II類錯誤：H0為假，H1為真時，接受H0，犯第II類錯誤（即錯誤地接受H0）的概率記為beta。

1. 犯第I類錯誤的概率alpha與置信水平1-alpha

通常，將犯第I類錯誤的概覽alpha(0.05)稱為顯著性，把沒有1-alpha(0.95)稱為置信水平，即有1-alpha的概率正確接受了H0。

一般，alpha取值為0.05或更小的數值，即容忍犯第I類錯誤的概率最大為alpha。

2. 犯第II類錯誤的概率beta與統計功效power=1-beta

通常，將犯第II類錯誤的概率稱為beta；將1-beta稱為統計功效，即正確拒絕H0的概率。

一般，beta取10%~20%，則統計功效的取值為80%~90%。

犯第一類錯誤的概覽alpha與犯第二類錯誤的概覽beta之間的關係如下圖：

3. 統計顯著性p-value

當p-value<alpha時，即原假設成立的概率小於預設的顯著性水平，可拒絕原假設。p-value只說明兩個樣本有沒有顯著性差異，並不說明差異的大小。

根據統計學原理計算樣本量，需要根據顯著性水平查正態分佈表，工作中用到的比較少，這裡省略。

工作中可用python中的已有的包和函式計算。

二、樣本量計算的python實現

Python統計包statsmodels.stats.power中，有一個NormalIndPower工具，可以用其中的solve_power函式實現。

Solve_power函式中的引數如下：

（1）引數effect_size ： 兩個樣本均值之差/(原來樣本值*（1-原來樣本值））的開方

（2）nobs1：樣本1的樣本量，樣本2的樣本量=樣本1的樣本量*ratio

（3）alpha：顯著性水平，一般取0.05

（4）power：統計功效，一般去0.8

（5）ratio: 樣本2的樣本量/樣本1的樣本量，一般取1

（6）alternative：字串str型別，預設為‘two-sided’,也可以為單邊檢驗：’larger’ 或’small’

例：目前的點選率CTR是0.3，我們要想提升10%，將點選率提升到0.33，測試組和對照組的樣本量相同。

計算如下：

from statsmodels.stats.power import NormalIndPower
import math
effect_size = 0.03/math.sqrt(0.3*(1-0.3))
ztest = NormalIndPower()
num = ztest.solve_power(
    effect_size = effect_size,
    nobs1 = None,
    alpha = 0.05,
    power= 0.8,
    ratio=1,
    alternative = 'two-sided')
print (num)

3662.8015711721328

檢測效果變化值越小，需要的樣本量越大；檢測效果變化值越大，需要的樣本量越小。因為，變化效果越小，越有可能是抽樣誤差引起的；為了避免抽樣誤差的影響，需要增大樣本量。

https://abtestguide.com/abtestsize/

AB測試原理及樣本量計算的Python實現

前言為了對比不同策略的效果，如新策略點選率的提升是否顯著，常需要進行A/B測試。但測試是有成本的，樣本量小時不能判斷出差異是否是由抽樣誤差引起，樣本量太大時如果效果不好則會造成難以挽回的損失。如何科學地

訊號生成及DFT的python實現方式

DFT DFT(Discrete Fourier Transform)，離散傅立葉變化，可以將離散訊號變換到頻域，它的公式非常簡單:

Java Lambda表示式原理及多執行緒實現

1、使用Lambda表示式實現多執行緒 public static void main(String[] args) { //使用匿名內部類的方式，實現多執行緒

介紹RAID的工作原理及一步步來實現RAID的建立

一、RAID(RedundantArraysofInexpensiveDisk):獨立冗餘磁碟陣列 RAID的作用是？　　RAID可以通過一些技術將一個或多個磁碟組合成一個較大的磁碟空間裝置，並且還具有一定的資料保護功能。 1、RAID的等

AVL樹新增及自旋python實現

from collections import deque from dataStructures.tree.biTree.bst import BiTreeNode, BST class AVLNode(BiTreeNode):

JMeter 4.0 分散式測試原理及填坑注意事項

我們使用 JMeter 進行效能測試時，經常遇到 JMeter 假死的情況。一般有兩個原因：一是 JMeter 原本是Java寫的，heap受硬體限制需要調優，二是單機無法分解超大併發比如100萬+併發壓測。因此，我們分二部走，首先我

字元統計及重排的python實現

題目給出一個僅包含字母的字串，不包含空格，統計字串中各個字母（區分大小寫）出現的次數，並按照字母出現次數從大到小的順序輸出各個字母及其出現次數。如果次數相同，按照自然順序進行排序，且小寫字母在大寫字母

python實現布隆過濾器及原理解析

在學習redis過程中提到一個快取擊穿的問題，書中參考的解決方案之一是使用布隆過濾器，那麼就有必要來了解一下什麼是布隆過濾器。在參考了許多部落格之後，寫個總結記錄一下。

python中棧的原理及實現方法示例

本文例項講述了python中棧的原理及實現方法。分享給大家供大家參考，具體如下：

python佇列原理及實現方法示例

本文例項講述了python佇列原理及實現方法。分享給大家供大家參考，具體如下：

python實現LRU熱點快取及原理

LRU LRU（Least recently used，最近最少使用）演算法根據資料的歷史訪問記錄來進行淘汰資料，其核心思想是“如果資料最近被訪問過，那麼將來被訪問的機率也更高”。

感知器基礎原理及python實現過程詳解

簡單版本，按照李航的《統計學習方法》的思路編寫資料採用了著名的sklearn自帶的iries資料，最優化求解採用了SGD演算法。

Python異常原理及異常捕捉實現過程解析

關於選課程式，最近著實有點忙，沒機會複習os、pickle兩部分模組，所以資料儲存和字典讀取成為了一個問題，大致原理知道，但是具體操作可能還是得返回去再好好看看，所以目前就提前開始學習新的知識了，雖然今天感覺

Python opencv相機標定實現原理及步驟詳解

相機標定相機標定的目的獲取攝像機的內參和外參矩陣（同時也會得到每一幅標定影象的選擇和平移矩陣），內參和外參係數可以對之後相機拍攝的影象就進行矯正，得到畸變相對很小的影象。

Softmax函式原理及Python實現過程解析

Softmax原理 Softmax函式用於將分類結果歸一化，形成一個概率分佈。作用類似於二分類中的Sigmoid函式。

Python DES加密實現原理及例項解析

加密流程首先說一下置換的意思，比如說有5678這個字串，置換表為2143，置換表中的數表示的是位置，所以字串變成6587。所有的置換表在程式中。（S盒置換不一樣，會另外說明）

壓力測試工具Apache Bench實現原理及用法解析

1：吞吐率（Requests per second）伺服器併發處理能力的量化描述，單位是reqs/s，指的是某個併發使用者數下單位時間內處理的請求數。某個併發使用者數下單位時間內能處理的最大請求數，稱之為最大吞吐率。

Python壓縮模組zipfile實現原理及用法解析

一、python壓縮模組簡介 python直接通過內建壓縮模組可以直接進行壓縮檔案的建立；

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

本文介紹了布隆過濾器的概念及變體，這種描述非常適合程式碼模擬實現。重點在於標準布隆過濾器和計算布隆過濾器，其他的大都在此基礎上優化。文末附上了標準布隆過濾器和計算布隆過濾器的程式碼實現（Java版和Pytho

Python動態型別實現原理及過程解析

在python中，我們使用變數時，並沒有宣告變數的存在和型別。型別是在執行過程中自動決定的。

AB測試原理及樣本量計算的Python實現

前言

一、 A/B測試的統計學原理

（一）大數定律和中心極限定理

（二）假設檢驗

二、樣本量計算的python實現

相關推薦