Netflix 的准实验

乔梁 | 2022-06-16

实验为 Netflix 的决策提供了很多信息。 Netflix 严谨地设计、分析和执行实验,以便确信,对 Netflix 的会员和 Netflix 的业务来说,这个改变是正确的。 Netflix 在其产品的各个方面都有多年的实验经验,不断改进其产品的 UI、搜索、推荐、视频流等。因此, Netflix 极大地提高了 A/B 测试平台的成熟度,以及围绕它的企业文化。然而,虽然 A/B 测试对于许多类型的假说来说是一种有用的工具,但有一些原因无法使用 A/B 测试来测试某些假设:

  1. 像传统 A/B 测试中那样,对用户进行个人级别的随机化在技术上是不可行的
  2. 可以通过口耳相传、大众媒体甚至 Netflix 自己的排名系统来随机化分配不同体验的用户之间的干扰,但会发生干扰;简而言之,将违反稳定的单位处理值假设(SUTVA),从而使结果产生偏差。

例如: Netflix 的目标可能是更好地了解在其会员产品体验中推广特定标题的互动效果,同时也通过户外营销努力做到这一点。那么,这些活动的效果是叠加的,还是相互蚕食?

那么,如何衡量这些变化的影响?通常, Netflix 希望运行一个经典的个人级别随机实验,但是,随机选择几乎是不可能的,例如让哪些个人看到广告牌广告。然而,尽管不能随机分配个人,但可以随机选择一些城市来展示广告牌,而其他城市则不展示。

现在,就可以在特定时间寻找测试区域与特定时间控制区域相比的变化。由于随机变化一直在发生,实验者需要回顾历史以确定哪些变化是正常的,这样他/她才能确定测试的影响。在 Netflix ,这被称为「准实验(quasi-experimentation)」,因为个体组是根据位置分配的,而不是随机分配每个个体,如果没有个体随机化,由于偏度和异质性差异,不平衡的可能性要大得多。准实验的结果不会像 A/B 那样精确,但实验者希望能对因果关系进行定向解读。

改进和机会

实验者如何从之前的户外营销示例等研究中获得更精确的结果?迄今为止, Netflix 的大部分开发都集中在改进的测试设计上,而不是在改进的统计模型上。当有丰富的数据支持时,更好的模型最有帮助,而对于营销研究, Netflix 在新成员注册之前几乎对他们一无所知。相反, Netflix 可以通过增加进行的比较次数来提高统计能力。当营销材料被删除时,这是另一个衡量其影响的机会,假设会恢复到基线注册率。

然后可以在未曝光的地区进行户外营销,衡量其影响,然后再次将其撤下以进行另一次衡量。在更复杂的设计中,可能根本没有任何纯粹的「控制组」,但是,如果能确保在干预时总是有区域没有变化,仍然可以衡量其影响。

在其他情况下, 也可能会从更复杂的模型中受益更多。例如,Netflix 运行一个名为 「Open Connect」的内容交付网络,向 Netflix 的用户流式传输内容。当其尝试改进这个交付系统时, 经常需要在整个 Open Connect 服务器上进行变更,而不能随机化各个流。测试这种变更的影响成为另一个准实验,在服务器级别随机进行。但 Netflix 对服务器上发生的事情的了解比对居住在不同城市的潜在会员的了解要多得多。通过改进建模和改进测试设计,很可能可以对之前的估计进行重大改进。例如,实验者可以使用预先实验信息,了解每台服务器或多或少可能会提供哪些内容;SD 中的动画比 UHD 中的动作电影更容易成功流式传输。是应该使用阻塞设计,还是匹配设计?或者使用协变量控制这些差异?

扩展准实验

在过去的一年里, Netflix 的营销团队已经开始进行更多的准实验,来衡量营销电影和电视节目在各种画布上的业务影响(在会员体验、电视广告、户外广告、在线广告等)实现更广泛的目标,即最大限度地让 Netflix 的会员享受 Netflix 的内容。

Netflix 在其营销准实验方面的成功随后激发了其他团队的兴趣,以扩展他们自己的准实验工作,即 Netflix 将进行大量准实验。为了进一步扩大规模, Netflix 正在更广泛的实验平台内开发一种名为「Quasimodo」的新产品,以自动化科学家工作流程的某些方面,这样 Netflix 就可以解放 Netflix 的科学家,而且可以并行运行更多的准实验。

Netflix 有 3 个关键想法来塑造 Netflix 对 Quasimodo 的关注:

  1. Netflix 团队考虑最多的是假设生成和结果解释,而不担心运行准实验的机械和操作方面
  2. Netflix 利用 A/B 测试的最佳实践,并考虑如何最好地构建一个整体实验平台,以支持 Netflix 在 Netflix 的雄心勃勃的工作规模

由于这是一个新兴领域,跨职能的科学家团队可以不断合作设计和分析准实验的最佳方法。至关重要的是,他们可以将这些想法转化为一个平台,以造福 Netflix 的更广泛的实验者受众。


原文作者: Netflix Technology Blog 原文链接:Decision Making at Netflix 发表时间: 2018 年 9 月 20 日