從零開始學AB測試：躲坑篇

AB測試的原理很簡單，只用到了最簡單的統計假設檢驗，但表面的簡單通常都隱藏著陷阱，這一點沒有經過實踐的摸爬滾打是不容易看到的，今天我就把前人已經踩過的坑，一共15個，給大家分享一下。在分享之前，大家腦中一定要有個概念，AB測試雖然簡單且強大，但是其成立是有前提的：

A組和B組的使用者一定是要“隨機”分配。隨機這個事很有學問，絕對的隨機甚至根本不可能，實際中只能做到儘量接近真隨機。換句話說，隨機性並不總是成立，你要仔細小心它失效的場景。
在以你測試的時間點為中心的一定時間範圍內，使用者的行為是不變的。

只要牢記並時刻檢查這兩點假設，那麼很多下面的陷阱你自然就能避免了。

1. 不做AB測試

很顯然，我們不能不做AB測試。不要企圖用一些其他方法替代AB測試，比如：通過比較產品上線之前N天和之後N天的情況，對比分析去得出結論。這不也是AB對比嗎？看起來沒毛病，這種方法也不是完全沒有用，但是很不穩定，所以不要用。

2. 亂作AB測試

既然AB大法這麼好用，那麼我們全靠它不就行了嗎？以後有任何功能任何改動都先搞個AB測試吧！AB測試並不是做的越多越好，我們可以通過下面簡單的公式來看一下：

我們追求的是總的效果，除了注重數量更要注重質量。

3. 取樣汙染

舉個例子，如果你在節假日對你的產品做AB測試，那麼測試階段的使用者群（樣本）和平時的使用者群自然會有很大的差異（回顧開頭講的第二條前提條件），這樣很難得出你想要的測試結果。AB測試無法在全體樣本上進行實驗，所以必須取樣，取樣要保證隨機性且能代表總體樣本的分佈，做實驗的時候就要特別注意避免一些可能導致取樣汙染的特殊因素。

4. 時間範圍不夠

除了要避免在一些特殊時間進行測試，測試的時間還要足夠長，理由如下：

時間長有助於收集更多的資料，保證統計顯著性
如果新的特徵改變比較明顯，老使用者可能會不適應，那麼你需要給老使用者一定的時間去適應你的改變，然後收集的資料才更有統計意義。(參考開頭提到的第二條準則）

5. 只關注平均值

如果測試結果顯示新版本比舊版本平均多吸引了30%的使用者，那麼是否就證明萬事大吉，可以開開心心上線了呢？還不行。這個時候還要對更細粒度的資料做一些分析，保證你看到的“好結果”是真的。舉個極端點例子，萬一是系統Bug導致新版本多統計出了更多的使用者呢？我們相信，在AB實驗結束並且展現了良好的結果時，你已經基本接近成功了，但是永遠不要在分析更詳細使用者資料之前下結論。

6. 忽視技術實現

有些看不見的東西一樣會影響使用者，AB測試階段除了產品特性的不同，技術細節也會改變，這些會不會影響到實驗結果？如果新版本載入更多的css資源，會不會導致頁面載入變慢？這些看不見的細節也會影響使用者體驗，給實驗結果帶來干擾。

7. 不去思考為什麼

AB測試不會一直成功，甚至失敗的次數可能更多，但是如果實驗結束之後不去思考為什麼，那才是徹底的失敗。實際上AB測試失敗的時候，才是我們從中學習並真正瞭解使用者的時候，千萬不要放棄這樣的機會，要多問些為什麼。

“想要提高成功率，先提高失敗率。”

8. 用錯誤的度量標準

舉個例子，如果你優化的是網站首頁的效能，那麼就不要拿全站的統計結果去做度量標準。度量標準要選好，不要想當然。

9. 做一系列的測試

如果新版本有10個細節上的改動，那麼是不是我們要做10個AB測試來分別測試他們的效果呢？當然不行，千萬不要這麼做。產品的改動效果絕對不是線性相加的，不同的特徵之間要一起組合才能生效，就好比把背景變黑之後一定要把字型變白才行。

10. 實驗設定有噪聲

還有很多我們無法預料的因素可能會影響到實驗結果，那麼怎麼辦呢？我們不止要做AB測試，還要做AA測試，用AA測試來保證實驗設定本身沒有噪聲干擾，這個也很重要。於是在實際中你要把1/3的使用者分配給B組，1/3的使用者分配給第一個A組，1/3的使用者分配給第二個A組。

11. 忽略環境的改變

不管你的AB測試是成功了還是失敗了，在一定時間之後你都要重新審視它，因為環境變了。昨天失敗的AB測試，很可能是你的理念超前了，也許過了一年使用者就可以接受了呢？一次失敗不代表用永遠失敗，反之亦然。

12. 交叉訪問汙染

當線上同時存在兩個版本的時候，你一定要考慮到單個使用者的體驗。如果一個使用者在不同瀏覽器、不同裝置上訪問到了不同的版本，那麼可能會帶來使用者體驗的下降，同時對收集的資料造成干擾。比如，如果AB版本之間的差異過於明顯，那麼老顧客可能就會很討厭那個新版本，而在新版本上表現出消極的行為，同時在老版本上表現積極的行為，而我們無法從統計結果中對這種偏差就行糾正。所以保證單個使用者體驗的一致性就很重要。

13. 漏斗汙染（Funnel pollution）

不確定這個翻譯準確不準確，就直接按英文直譯了。如果你是一個電商網站，那麼你最終的目標是要使用者下單付款，你的優化目標應該是針對整個下單的全流程，並且以最終下單的數量作為度量標準。假如你在首頁做了某些活度，讓點選產品頁面的使用者大幅度提升，有些統計資料看起來會很漂亮，但是對最終的結果可能沒有任何幫助。這個也要注意。

14. 同時執行多個AB測試

線上同時存在多個版本的話，實在是有點複雜，一般情況下不會這麼幹，但仍要警惕。

15. 使用錯誤的經驗

AB實驗畢竟是一項科學實驗，所以我們要用資料說話，不能想當然。不要亂用一些道聽途說的經驗，比如：“1000個使用者樣本就夠了”，實際上收集多少使用者的資料是要嚴格計算的。上一篇文章我們分享過類似的工具。再比如，不要以為在桌面端測試通過的方案，就可以放心在手機端同時上線了，實際上不同平臺的差異非常大，必須單獨進行AB測試。

總之，要記住開頭提到的AB測試成立的兩個前提，要時刻檢驗它們是否成立：

A組和B組的使用者一定是要“隨機”分配。
在以你測試的時間點為中心的一定時間範圍內，使用者的行為是不變的。

如果你喜歡以上內容，歡迎到我的個人主頁關注我：Homepage

相關推薦

從零開始學AB測試：躲坑篇

AB測試的原理很簡單，只用到了最簡單的統計假設檢驗，但表面的簡單通常都隱藏著陷阱，這一點沒有經過實踐的摸爬滾打是不容易看到的，今天我就把前人已經踩過的坑，一共15個，給大家分享一下。在分享之前，大家腦中一定要有個概念，AB測試雖然簡單且強大，但是其成立是有前提的： A組和B組的使用者一定是要“隨機”分配。隨

從零開始學AB測試：基礎篇

什麼是AB測試？通俗點理解，AB測試就是比較兩個東西好壞的一套方法，這種A和B的比較在我們的生活和人生中非常常見，所以不難理解。具體到AB測試這個概念，它和我們比較哪個梨更大、比較哪個美女更漂亮、比較哪個工作更好之間有什麼區別嗎？區別其實非常明顯，從以下幾個方面不難看出來：領域不同：AB測試的概念是在

從零開始學產品第六篇：更強大的測試，自動化測試和效能測試

本篇為【從零開始學產品】系列課第1章第5節歡迎到公眾號選單欄，獲取產品經理課程更多資料 “測試就是拿點滑鼠在電腦上瞎點，或者是用手機隨便戳幾下麼？” “不，是有計劃有意圖的測試，比如說，邊界測試，隨機測試，端到端測試等等。

從零開始學產品第五篇：三個環境，開發、測試和線上

本篇為【從零開始學產品】系列課第1章第4節歡迎到公眾號選單欄，獲取產品經理課程更多資料上節課我們說到了，Bug的生命週期，而只有在測試環境和線上環境發現的Bug，才會被稱之為Bug。倒底什麼是測試環境，什麼是線上環境，

《從零開始學Swift》學習筆記（Day 57）——Swift編碼規範之凝視規範：文件凝視、文檔凝視、代碼凝視、使用地標凝視

精品 -type mil 顯示 clas ber ansi tex text 原創文章。歡迎轉載。轉載請註明：關東升的博客前面說到Swift凝視的語法有兩種：單行凝視（//）和多行凝視（/*...*/）。這裏來介紹一下他們的使用規範。 1、文件凝視文件凝視就在每個文

從零開始學Socket：（二）連線服務端和客戶端

先了解一下執行緒問題，在Main函式裡就是主執行緒他能處理程式碼，而new Thread就是新開一個執行緒，他和主執行緒互不干預，但是主執行緒完了，他也完了。他完了，主執行緒沒事。在上篇部落格裡，我們已經建立好了伺服器端和客戶端，但是他們倆還沒有聯絡，要把他們聯絡起來，就

從零開始學Socket：（一）服務端和客戶端建立

上篇我提到Socket是TCP/IP的抽象介面。所以我們直接使用就好，沒必要知其甚解。 1.開啟VS 新建專案名稱，位置隨意這裡名稱是Server 框架選.NET 4.5（在這篇部落格裡也無所謂）注意引用 using System.Net; using

從零開始學Socket：前言

我學習Socket的動機很簡單，我要做一個基於Socekt的網路遊戲。關於Socket的基礎概念以及相關知識，請大家自行百度。 https://blog.csdn.net/fighting_xa/article/details/50623571 http://liulili

從零開始學產品第七篇：常用的功能模組有哪些

一個系統中都有哪些模組組成，對於初學者來說，可能還不能夠區分的很清楚。但是仔細回想一下，是不是幾乎所有的功能都有登入和註冊的功能？啟動頁，Banner，輪播，個人中心，關於我們，意見反饋，設定，忘記密碼，支付，地圖，等等等等。這些都是屬於一個系統裡很常見的功能

從零開始學產品第四篇：BUG的生命週期

本篇為【從零開始學產品】系列課第1章第3節歡迎到公眾號選單欄，獲取產品經理課程更多資料 “從開始到死亡，這是世間萬物的宿命嗎？” “是的，連Bug都如此。” --摘自【修真神界】第三千六百五十一章為了女神寫Bug

從零開始學產品第一篇：概述

如何從零基礎成長為一個獨立完成專案的產品經理呢？我們認為一個系統化、規範化、可執行的循序漸進的學習框架比一開始就談痛點、談風口、談突破的理論性文章要更加適合培養零基礎的人成長為一名初級產品經理經過修真院三年多時間的

從零開始學深度學習二：神經網路

本課程筆記來源於深享網課程《深度學習理論與實戰TensorFlow》 2.1學習的種類學習的種類主要分成以下三類：監督學習、非監督學習和強化學習三種。接下來，將分別對這三種學習進行介紹。監督學習：對已經標記的訓練樣本進行學習，然後對樣本外的資料進行標記

從零開始學深度學習三：logistic迴歸模型

本筆記來源於深享網課程《深度學習理論與實戰TensorFlow》 Logistic迴歸模型是一種廣義的迴歸模型，其與多元線性迴歸有很多相似之處，模型的基本形式相同，雖然也被稱為迴歸模型，但是需要注意的是，Logistic更多應用在分類問題中，但是又以二分類最

從零開始學caffe（七）：利用GoogleNet實現影象識別

一、準備模型在這裡，我們利用已經訓練好的Googlenet進行物體影象的識別，進入Googlenet的GitHub地址，進入models資料夾，選擇Googlenet 點選Googlenet的模型下載地址下載該模型到電腦中。模型結構在這裡，我們利用之前講

從零開始學推薦系統一：基於鄰域的演算法

本系列文章會從最簡單的推薦系統到目前主流的推薦系統解決方案做總結。 1. 基於鄰域的演算法基於鄰域的演算法是推薦系統中最基本的演算法，在業界得到了廣泛應用。基於鄰域的演算法分為兩大類，一類是基於使用者的協同過濾演算法，另一類是基於物品的協同過濾演算法。 1.1 基於使用者的協同過濾演算法（UserCF

【從零開始學日文】#6 簡單文型：「請問那個是..」日語基礎文型教學

❶これはＡです（這是A） ❷これはＡのＢです（這是A的B） ❸このＡはＢのです（這個A是B的）具體發音請觀看Youtube https://www.youtube.com/watch?v=yDuH4pjWtXM&list=PLuNucubP18snvU3Zz8

【從零開始學日文】#5 簡單文型：「初次見面我叫..」日文基礎文型教學★

A. 短劇會話中字翻譯（復習時念出來哦）ドリアン：「こんにちは」　　　　　（你好）さくら　：「こんにちは」　　　　　（你好）ドリアン：「あ、初めまして、私はドリアンです。」（啊，初次見面，我叫榴蓮）さくら　：「初めまして

從零開始學Socket：（三）服務端和客戶端簡單通訊

連線上服務端和客戶端之後，我們就要讓他們互動起來了。（到了現在，大家如果對下面程式碼不懂得地方可以去F12跟蹤至原始碼介面檢視，學習就是這樣）先在服務端編寫傳送函式和接收函式 /// <summary> /// 傳送資料到客戶

從零開始學caffe（十）：caffe中snashop的使用

在caffe的訓練期間，我們有時候會遇到一些不可控的以外導致訓練停止（如停電、裝置故障燈），我們就不得不重新開始訓練，這對於一些大型專案而言是非常致命的。在這裡，我們介紹一些caffe中的snashop。利用snashop我們就可以實現訓練的繼續進行。在之前我們訓練得到的檔案中，我們發現

從零開始學caffe（九）：在Windows下實現影象識別

本系列文章主要介紹了在win10系統下caffe的安裝編譯，運用CPU和GPU完成簡單的小專案，文章之間具有一定延續性。 step1:準備資料集資料集是進行深度學習的第一步，在這裡我們從以下五個連結中下載所需要的資料集： animal flower plane hou