前言 试验不息 创新不止
1. 从一个故事说起
2013年的一天早上,我在谷歌(Google)总部广告质量部门的办公室里盯着显示器上的图表,站在我身旁的是穿着正式的广告产品经理。“以现在的试验数据来看,我们申请把流量推上20%吧?”“先看看美国地区的细分结果。”类似这样的严肃讨论几乎天天都在发生,在我的办公室内发生,也几乎在每一个其他小团队的办公室里发生。
你可能想问,这样的对话到底是在讨论什么?当时我们团队正在用A/B测试的方法来进行一个线上试验。我们需要每天(有时候每小时)观察试验数据,做出项目的下一步决策,如果这个决策的影响可能会比较重大,例如将影响谷歌20%的用户,那么我们需要向上级领导汇报以得到其支持。
我们做的试验源于一个大胆的想法,这个想法来自搜索部门的产品经理:搜索产品时试着把谷歌搜索结果(包括广告)里的URL换成结构化的域名,例如把“http://www.appadhoc.com/lpo”换成“AppAdhoc.com> LPO”,这么做会不会提升用户浏览搜索结果的效率从而提升用户的广告点击率呢?这样的事情从来没有人做过,包括谷歌的竞争对手们也没有做过。这样的改动用户会喜爱吗?这样做会不会让用户更容易找到想要的搜索结果?有可能,但也不一定,答案似乎见仁见智。没有人能预测这个项目会不会有收益,更没法预测具体会给广告营收带来1%的影响还是10%、0.1%,或者没有任何影响。
如果按照“传统”的企业决策流程,产品经理将围绕这个想法做一些用户调研,然后将项目汇报给领导,如果领导认为这个想法值得一试(很多情况下领导会劝产品经理放弃),会组织会议进行讨论,因为会议上有人喜欢这个想法,而有人不喜欢,最终的会议决议可能会放弃这个想法。
谷歌的做法不一样,产品经理将想法口述给领导,领导同意运行一个“2%流量”的试验。技术团队花了几天时间完成了研发和测试,试验很快就上线了。2%的搜索流量被采样进入试验,其中1%的用户作为对照组会看到URL(如http://www.appadhoc.com/lpo),另外1%的用户作为试验组会看到域名(如AppAdhoc.com > LPO)。这两组用户的广告点击率被准确地采样统计,然后对比分析,得出实时的试验结果。试验结果不是很显著,但是似乎试验版本的样本均值略好一点(如 +1%[-2%,+4%]),也就是说从采样样本来看试验组的广告平均点击率高于对照组,但是从统计意义来看还不能确定两者谁更好。通常情况下,试验结果不显著是因为样本量不足,所以我们希望做更多的分析,然后向领导建议将试验推送给更多的用户(20%),获得更多的试验样本,以期待有可能得到更明确的试验结果。
这样的试验项目在谷歌很常见。具体来说,谷歌每个月都会运行1 000个以上的试验项目。每个试验项目的参与者都来自这个大公司的各个部门:产品经理、工程师、销售人员、客服人员、法务人员、质检人员、策略研究者、市场人员等。项目的负责人通常是产品经理,他会管理工作进度及协调公司资源。项目的其他参与者会向各自的部门领导汇报,保证项目决策得到相关部门的支持。
从谷歌的实践来看,这种跨部门组建的试验项目小团队很有战斗力,谷歌内部几乎所有成功的项目都是这么落地的。我觉得这种成功来自于试验项目的管理得当、目标明确、路线清晰,以及特别重要的——我们可以利用强大的A/B测试。
2. A/B测试带来了很多好处
像“URL改成域名”这样的项目几乎都是通过A/B测试试验系统来实施的。由于这个原因,在谷歌内部,“项目”这个词几乎已经被“试验”所完全替代。广泛使用A/B测试为谷歌带来了如下长久的巨大的好处:
✓ 确定可预测的业务提升:每个试验项目的收益在完全上线之前就可以精确衡量,甚至精确到0.01%(注意,考虑到谷歌的业务体量,营收增加0.01%相当于每年多赚或者少赚数百万美元)。如果一个试验项目会带来负增长,这个项目很可能就不会上线;只有带来正增长的试验项目,才会加大投入并最终推广给全量用户。通过A/B测试精确预测每个项目的商业回报,然后有选择地上线项目,谷歌可以确保每年广告收入增长约20%(约100亿美元规模),从而保证利润和股价持续十多年的攀升。
✓ 低风险、高效率的试错:试验项目必须经过小流量的灰度发布阶段(如1%的流量),只有确定达到了业务预期,并且没有故障,没有过负载,没有用户投诉,没有违背政策监管,没有其他风险,才会推广给更多用户。这样做大幅度降低了决策风险,把可能的损失降到最低。同时,A/B测试排除了试验之间的互相干扰,小流量试验可以大量并行进行,大幅度提高了试错效率,把互联网迭代优化的速度推到了极致。因此,谷歌常常有上千个试验并行运行。
✓ 创新的企业文化:谷歌是一个巨型公司,在全球各地有好几万名优秀的员工,公司有复杂的组织架构。这样的公司很容易滋生“大公司病”,每一个决策都可能因为受影响的部门太多而遭遇重重阻碍。A/B测试的低风险、高效率,以及过往的成功实践,持续鼓励公司的新老员工开拓思路并大胆创新,避免了故步自封的“大公司病”问题。创新的企业文化,是企业长久生命力的源泉。小团队创新的工作方法,使阿米巴企业管理方法可以成功落地。
当然,有些项目并不能通过A/B测试来做,如谷歌的电视棒项目(Chromecast)是一个典型的从0到1的创新项目。对于这种没有用户基础的新产品,我们虽然不能用精确、方便的A/B测试做试验,但是可以用其他的试验方法,如最小化可行产品(MVP)的市场测试方法。
3. 如何复制这个成功
试验,尤其是A/B测试的价值很高。在硅谷巨头公司、华尔街和各种创新企业,试验都取得了巨大的成功,但是在目前的中国市场,试验还不太成熟。在很多行业里,美国企业的试验能力和试验效果都比我们领先很多。在巨头公司的对比中,谷歌每年的试验数量是携程的10倍;在A/B测试服务商的对比中,Optimizely上的试验数量比吆喝科技(App Adhoc)上的试验数量要多10倍。
其实无论是在中国、美国还是其他市场,还有很多企业没能建立起试验创新的文化。要实现试验驱动的增长,需要正确地在企业内建立A/B测试的文化,搭建完善的基础设施,采取正确的工作方法。我们通过多年的工作和观察,在尝试走试验驱动路线的企业内,发现了一些常见的问题,将其大致可以分为以下三类:
(1)决策者缺乏试验的思想,项目决策谨慎但是实施坚决。这种“传统”方法经常遇到的问题是产品团队投入3个月用于研发产品的大改版,最后没有业务上的回报,甚至用户反馈新版还不如以前。正确的做法应该是反其道而行之,大胆假设,小心求证。不做试验的企业虽然还为数不少,但是已经在大量转变。在激烈的市场竞争下,企业越来越以结果为导向,对领导者和业务骨干的要求也越来越高,大企业的各个层级的领导们也越来越重视试错和迭代。
(2)决策者有试验的思想,但是缺少A/B测试的正确实施方法。虽然领导希望做A/B测试来验证决策,但是实施起来需要投入大量人力和时间成本,容易出错,试验设计、试验配置、试验结论也常常饱受争议,并没有提高企业效率,甚至事倍功半,形式大于内容。这样的组织可能处在学习互联网思维的实践阶段,随着互联网产业的蓬勃发展和影响力加强,它们正在快速改进,走上正轨。
(3)已经在正确地运用A/B测试,但是效率低、频率低。很多业务线一年尝试的试验不到10个,这样的试错速度并没有比传统方法提高多少,只是保证了错误的决策不上线,并没有真正利用好互联网的强大力量。对这些组织来说,目标应该是将试验数量提高10倍,方法是人才培养和文化建设,以及采用更好的A/B测试基础设施,鼓励高频、高效的创新项目,增加单位员工的试验产出。
4. 为什么写这本书
意识到这些企业普遍面临的问题后,我觉得A/B测试的系统性知识和经验会对各行各业的业务负责人很有帮助,特别是对互联网线上业务的从业者来说,A/B测试是必备能力,这促成了本书的写作。
A/B测试在各行各业的很多场景中都已经有成熟的应用和不可替代的价值,特别是在互联网行业、科学研究、基础农业、医疗、金融、公共政策、市场营销等领域都非常成功。在互联网行业,一个特别热门的A/B测试应用场景就是产品运营的增长黑客。增长黑客借助互联网和A/B测试的力量让业务增长的速度远超传统行业,这套方法容易落地,投入产出比高,无数成功的独角兽互联网企业就是利用增长黑客创新创业,并创造了财富的。本书的内容将重点放在互联网产品运营特别是增长黑客的A/B测试上。
本书的定位是A/B测试的工具书。我们从实践角度出发,介绍了A/B测试的理论原理,标杆企业的最佳实践,进而详细介绍A/B测试的实际应用场景、落地实施流程和业务产出预期。无论你是决策者还是业务骨干,是产品负责人还是软件工程师,是内容运营人员还是市场营销经理,希望本书的思想和内容都可以帮助到你。
在本书的写作中,很多行业专家,特别是吆喝科技的专家们为我提供了丰富的案例素材和专业建议。如果没有他们,这本书无法完成。在此,我要特别感谢李淼、沈国阳、张毅飞、柏利锋、刘飞、李想、蒋守战、李翔宇、陈聪、刘泽军等。
王晔(Sando Wang)
2019年1月