聊聊实际工作中的AB测试实验

JW的随笔 2021-09-03

2586

AB测试，早已是数据工作者必须要掌握的一个知识点了。本文主要从AB测试实验设计者的角度，讲述了AB测试实验的定义、流程、原理；并简单介绍了AA测试、最优实验的选取以及最小样本量等知识点。

一、AB测试的一个简单定义

AB测试源于生物学中的对照实验，简单来说就是：对来自于同一用户总体的多个用户分组样本，每个组使用一个方案，在同一时间维度上去观察用户的反应并收集数据，最后根据假设检验结果评估出最好的方案，正式采用。

接下来，我会对以上定义进行逐句讲解说明，方便大家更加深刻的理解AB测试的概念：

1. “来自于同一用户总体的多个用户分组样本”，这一部分属于分流器的内容（在后续的文章中会进行深入讲解）；分流结果应当保证同时性、同质性、唯一性。

同时性：分流和实验后续测试都应该是同时的。
同质性：要求最后分出的用户分组样本，在各个维度上的特征分布都较为相似，尽可能避免辛普森悖论发生。在日常实验中，我们常常使用的AAB测试，用于判断分组同质性。
唯一性：非重复抽样，要求用户不被重复计入同一实验中的多个组。

2. “每个组使用一个方案”，每一方案最好应遵循单变量原则，便于归因。

这并不是说一个实验只能有一个影响因素，例如，APP开屏广告页的图片和文字分别有两种不同的设计，也就有4种组合，即4个方案。

3. “在同一时间维度上去观察用户的反应并收集数据”，用户的反应一般会体现在业务数据和用户体验数据上，实验设计者需要对主要影响指标有先验认知，并根据历史经验判断是否存在潜在的特征会影响到主要影响指标表现，实验中再观察用户分组样本的特征分布，避免辛普森悖论发生。

4. “最后根据假设检验的结果评估出最好的方案，正式采用”。在这一过程中，我们主要应用小概率事件原理，判断对应方案对我们所关注的核心指标是否有预期方向的显著影响，即根据假设检验的结果，判断哪些方案较原方案有统计意义上的显著差异。在多方案AB测试中，会根据效应量选出其中表现最好的版本。

二、AB测试实验流程

2.1 AB测试实验流程

在实际工作中，一个完整的AB测试流程可以分为四个步骤：

1、分析业务现状，提出优化方案，构建评估指标体系。

分析当前业务现状，确定最高优先级的改进点，提出优化方案。
设置主要指标来衡量方案的优劣；设置辅助指标来评估其他影响。

2. 设计方案原型、开发等准备工作。

3、AB实验设计：

明确目标群体：本次实验是否是面向特定群体的实验，是仅面向APP端还是Web端等等。
明确分流分层方案：

实验需要切分成多少组？一般情况下，会设置两组空白组进行AA测试，用于评估埋点、分流结果的合理性；在实验方案较少的情况下，每一方案也可以设置两组实验组，用来判断是否存在 heavy user 对实验结果产生影响。
如果存在能影响主要指标的特征，当前分流方案是否能够保证样本的随机和均匀分布，避免辛普森悖论发生。

确定最小样本量：给出检验功效（一般为0.8）、允许的极限误差大小（参考业务指标的波动大小），计算最小样本量。（计算推导详见第四部分）
确定实验时长：

结合目前日均活跃用户数，确定实验进行多少天能达到最小样本量；
根据实验目的和历史经验，考虑用户行为周期、适应期等其他影响因素对实验流量的干扰，适当延长实验时长，必要情况下，需要保证实验时长能覆盖一个最小周期。例如，在一个商务出行的实验场景中，存在工作日和周末用户行为的显著差异，最好保证实验时长在7天以上。

4、收集实验数据，评估实验结果，给出实验结论。

实验数据收集：实验数据一般AB实验平台或数仓同学会提供；在基建不完善的情况下，实验设计者还需要进行埋点等准备工作。
实验结果评估：如前所述，我们主要应用小概率事件原理，判断对应方案对我们所关注的核心指标是否有预期方向的显著影响，即根据假设检验的结果，判断哪些方案较原方案有统计意义上的显著差异。在多方案AB测试中，会根据效应量选出其中表现最好的版本。（假设检验原理详见第三部分）
给出实验结论：① 确定发布新版本；② 开放流量，继续测试；③ 优化方案重新实验；④ 放弃当前实验优化方向。

2.2 聊聊AA测试

在上文中，我们提到一般会设置两组空白组进行AA测试，用于评估埋点、分流结果的合理性。

这如何理解呢？

当AA两组实验的指标差异很大时，一定是埋点、分流方法、数据统计中的一个存在问题或缺陷；在大公司，AB实验是通过AB实验平台完成，这些都不会存在较大问题。

那么，为什么我们还要做AA测试呢？

AA测试还有一个重要作用是用于评估AB实验的精度。这两组实验的主要业务指标均值的Gap称为系统误差；系统误差越小，说明AB测试的精度越高。一般情况下，AB实验结果中的业务指标的Gap至少需要大于AA中Gap的两倍，才认为AB实验结果具有统计显著性，否则可能只是正常误差。因为业务指标均值的波动率等于“总体方差/样本量”，所以，当Gap较大时，我们可以先尝试增加样本量。

2.3 聊聊A/B/N实验中最优方案的选取标准

当我们在同一实验中进行多组实验时，最后必然会面临最优方案的选择问题。如果各个实验组的样本量相差不大时，一个比较粗糙的做法是直接比较检验功效的大小，选出最优方案。

但是，当各个实验组的样本量存在较大差异时，或者我们想知道实验组和对照组的差异大小是否显著时，我们需要使用一些衡量效应量大小的指标帮助我们做出决定。一个常见的衡量效应大小的指标是 Cohen's d：