掘金 阅读 ( ) • 2024-03-22 17:14

theme: orange

当前时间片实验日益增多,且时间片实验之间如果不加限制会存在互相干扰。因此在货拉拉实验场景大量使用固定顺序轮播的时间片嵌套的方法,将这一干扰降低至可控。

但实际情况中,由于订单在周与周之间会有周期性波动,因此对嵌套实验而言,一旦嵌套层数大于2层,回收周期将大于28天。

因此考虑到,如果使用固定顺序轮播随机顺序轮播交叉的方式,是否可以缩短回收周期。本文使用模拟的方式给出相应的说明。

1. 理论基础

关于全因子实验设计(factorial design)和时间片嵌套实验设计的思考

1. 时间片嵌套实验本质上是全因子实验设计的一种实现方案

因子在这里指的是不同模块的策略; (例如:当前「播单扩半径」与「调整pk时长」就可以认为可以组成一个全因子实验)

将不同的因子,以一定的方式组合起来,当仅观测某一个时,要保证其他因子的影响程度可以相互抵消;

最小实验周期等价于所有可能性轮换一遍,且保证每组的时间相等所需要的时间(不考虑周的自然波动)。

2. 全因子实验框架下,时间片长度和实验顺序对嵌套实验的影响

时间片嵌套实验,存在2大实验设计变量,时间片长度的选取(5分钟,30分钟,1小时等等),实验顺序的设计(随机顺序,固定顺序)。

为了演示的方便,这里仅考虑2个因子,每个因子仅有2个取值的实验,即ABXY,需要保证AX,AY,BX,BY均在实验中出现,同时,作用时长相等。

为了说明时间片长度的影响,这里先假定实验顺序为固定序,假定起点对齐,嵌套结构有如下情况:

1. 当两个因子的时间片长度相等时,必须引入其中一个的顺序反转,才能遍历到所有组合;

2. 当两个因子的时间片长度不等时(一个长度为m,一个长度为n):

不保证每个组合耗时一致,需要 2 * max(m,n)即可获得所有组合数据;

若要保证组合耗时一致,情况较为复杂:

  • 当 m = 2n 时,需要 2m 长度即可(可以泛化为,m是n的偶数倍);
  • 当 m = 3n 时,需要 4m 长度(可以泛化为,m是n的奇数倍);
  • 当 m 不能被 n 整除时,需要长度 = 2 * 最小公倍数(m,n),不需要变化顺序

流程图 (6).jpg

3. 当仅考虑实验顺序的影响,同样考虑2个因子alpha,beta,每个因子多种取值的情况,共会发生3类组合

image.png (注:以上讨论均不考虑天波动/周波动带来的同质性问题处理)

2. 固定+随机时间片场景探索

我们关心使用固定顺序轮播随机顺序轮播交叉的方式,是否可以缩短实验回收周期。

上面的理论基础可知,时间片长度是影响嵌套实验的另一个变量,所以接下来的模拟会考虑时间片长度是否相同,在不同的实验周期内,探索固定顺序叠加随机顺序后实验数据的同质性

时间片长度相同: 实际动播3.0实验 + 模拟加价实验

  • 动播3实验: 按照实际 ab实验 数据统计,两个分组各为X分组时间片,使用固定顺序轮播
  • 模拟加价实验: 这里为模拟实验,按照两个组各X分钟时间片,使用随机顺序轮播

结论如下:

  1. 总体上,四种情况下的订单数占比约有1p.p.~4p.p.不等的差异,差异仍可接受;
  2. 从动播3的实验来看,对照组有XXX%的订单可加价,实验组有XXX%的订单可加价,经检验,二者有显著差异。
动播3分组 模拟加价实验分组 订单数 订单数占比 可加价订单数占分组流量的比 可加价订单数占全部流量的比 对照组 对照组 XXX 26.58% 0.00% 0.00% 对照组 实验组 XXX 22.93% XXX% XXX% 实验组 对照组 XXX 23.64% 0.00% 0.00% 实验组 实验组 XXX 26.85% XXX% XXX%
  1. 各组分小时的订单数分布如下:

    各组间在小时维度的波动差异较大,16天周期下不同质;

    “对照组+对照组”和“实验组+实验组”的趋势较为贴合,且二者趋势明显异于“仅有一组是实验组”的组合的趋势;

  1. 四种组合下的订单数逐日累积变化趋势如下:

    “对照组+对照组”和“实验组+实验组”的趋势较为贴合,另外两组的趋势更为贴合;

    在16天里,并未出现四条线逐渐收敛的趋势

时间片长度相同:模拟动播3.0实验 + 模拟加价实验(60天)

由于实际情况下很少有长期存在的某个实验,因此这里模拟一个60天的播单实验,与模拟的加价实验在同一批城市上叠加,用来探查在延长了观测周期以后,这种叠加效应能否有所稀释

  • 模拟动播3实验: 两个分组各为X分组时间片,使用固定顺序轮播
  • 模拟加价实验: 两个组各X分钟时间片,使用随机顺序轮播

结论如下:

  1. 总体上,四种情况下的订单数占比差异缩窄至1.5p.p.以内,在无真实策略的情况下,各组配对率差异极小;动播实验组和动播对照组的可加价订单占比基本无差异

  2. 即使延长观测周期至60天,各组订单在一天每小时的分布上仍然有较大不同质

    同样呈现出“对照组+对照组”和“实验组+实验组”的趋势较为贴合,且二者趋势明显异于“仅有一组是实验组”的组合的趋势;

  3. 即使延长观测周期至60天,累积订单数也并未出现“逐渐收敛”的趋势

模拟播单实验分组 模拟加价实验分组 订单数占比 配对率(无真实策略干扰) 可加价订单占比 对照组 对照组 24.46% XXX% 0.00% 实验组 25.56% XXX% XXX% 实验组 对照组 25.62% XXX% 0.00% 实验组 24.36% XXX% XXX%

时间片长度不相同:模拟动播3.0实验 + 模拟加价实验(60天)

由于实际情况下很少有长期存在的某个实验,因此这里模拟一个60天的播单实验,与模拟的加价实验在同一批城市上叠加,用来探查时间片长度不相同下的叠加效应;

  • 模拟动播3实验: 两个分组各为0.5X分组时间片,使用固定顺序轮播
  • 模拟加价实验: 两个组各X分钟时间片,使用随机顺序轮播

结论如下:

  1. 总体上,四种情况下的订单数占比差异缩窄至0.2p.p.以内,在无真实策略的情况下,各组配对率差异和可加价订单占比基本无差异

  2. 各组订单在一天每小时的分布上基本同质

    14天时会有轻微不同质;到28天在每小时分布上基本无差异了

模拟播单实验分组 模拟加价实验分组 订单数占比 配对率(无真实策略干扰) 可加价订单占比 对照组 对照组 25.03% XXX% 0.00% 实验组 24.96% XXX% XXX% 实验组 对照组 25.06% XXX% 0.00% 实验组 24.95% XXX% XXX%

3. 固定+随机时间片叠加效应分析结论

我们通过实际的实验数据模拟数据,探索了在不同实验周期时间片长度下,固定顺序轮播和随机顺序轮播交叉的实验方式对实验同质性的影响:

  1. 当固定和随机的时间片都为X分钟时:

    截止第16天:各组订单数、可加价订单占比都有较明显差异

    截止第60天:各组订单数、可加价订单占比无差异,但每小时订单数分布明显不同质

  2. 当固定顺序轮播的时间片为0.5X分钟,随机轮播的时间片为X分钟时:

    截止第二周(14天):各组订单数、可加价订单占比已基本无差异;每小时订单数分布有轻微不同质

    截止第四周(28天):各个指标同质性均较好

综上:

我们关心固定顺序轮播随机顺序轮播交叉的方式,是否可以缩短回收周期,但实际的实验数据模拟数据显示,这种方式并不能明显缩短观察周期,且同质性不好

时间片长度相同时,使用固定轮播+随机轮播的方式,并不能缩短回收周期,反而在相同的回收周期下,这种方式下的同质性不如嵌套的固定顺序轮播;

时间片长度不同时,使用固定轮播+随机轮播的方式,同质性较好;但同样的时间片长度,如果都用固定顺序轮播,也几乎能在同样的回收周期达到同等的同质性。

总结

对于货拉拉实验平台的时间片嵌套实验,我们认为应该谨慎使用随机顺序轮播,因为随机时间片的引入,带来了额外的方差,拉长了实验周期。

虽然固定顺序轮播需要人工处理多层实验的正交问题,但实验上线后流量同质性较好,实验周期较短,因此是多层时间片嵌套实验的较优的轮播方式。