- APP神圣官网 > 计划生活 > 正文
在这里准确性效率关键(样本受众所需用户版本)「样本的准确性」
在产品的工作流程中,其实也要做不少的实验和测试,比如AB测试、黑盒测试等不少人认为实验的结果和准确性是靠方法和执行,实际上,界定实验受众和样本量才是关键,魔鬼往往藏在细节中……很多人认为实验的成功取决于创意和执行但其实,关键在于如何界定实验受众和样本量魔鬼往往藏在细节中……01 确定实验受众1. 实验受众的选择标准(1)全体用户 vs. 特定条件的用户确定实验受众主要回答两个问题:哪些用户会被包含在实验中需要多大样本数和多长时间才能得到可信的结果针对第一个问题,具体情况需具体分析有时希望所有用户都参与实验,就无需特别设置受众;如果只想让特定条件的用户参与,才需要设置实验受众设置实验受众的目的,是针对某个用户群体生成更精细的产品优化方案第二个问题,本文后续会展开说明(2)案例分析:新闻APP广告点击率实验举个例子,一个新闻APP的用户分两类:看新闻赚零钱的,和喜欢游戏玩乐的该APP想测试不同广告banner的点击率假设是,”喜欢玩乐”的人看到”葛优躺”的banner,点击率会更高所以进行这个实验时,就应该单独摘取”喜好玩乐”的用户针对”喜欢玩乐”的用户,分别投放”葛优躺”创意banner和其他banner,测试点击效果2. 实验受众的分类方法(1)默认分组:操作系统、iOS版本通过第三方AB测试工具设置实验受众非常容易工具里有一些默认的受众分组可供选择,比如操作系统、iOS版本等假设某个实验只针对iOS 12用户,比如测试一个自动填表单的功能那进行实验时,就可以选择默认方式,只针对iOS 12用户,因为其他用户就看不到这个功能(2)自定义分组:特定渠道来源、产品使用情况除了默认分组,还可以定制分组产品经理或增长黑客提需求给研发,由研发来完成自定义受众分组比如只想针对某个渠道来源的用户(如信息流广告或百度搜索)给出不同的首页设置,就可以通过自定义受众方式完成设置再比如,招行有各种用户:有的有信用卡,有的买了理财如果招行想在首页做个实验,但只针对有基金账号的用户,也可以通过自定义受众分组找出这部分人,针对性地做实验02 估计所需样本数1. 样本数的重要性我们再来看第二个问题:如何预估实验所需的样本数这里有个例子,一个公司想测试把首页的蓝色按钮改成红色,看看点击率如何实验上线3小时后,初步统计100个用户样本数据,发现蓝按钮的转化率是20%,红按钮只有12%此时很多人就要下结论了:蓝按钮更好但等等,这个样本数太小了
不可能根据这么小的样本得出可靠结论于是公司继续实验上线3天后,样本数已经比一开始大很多了,上千个样本,点击数也有好几百这时蓝按钮的转化率掉到6%,红按钮的转化率升到9%感觉差不多了,红按钮应该更好,但还不能完全确定如果实验跑300天,样本数非常大可以看到,两种按钮的转化率都有所下降,但蓝按钮稳定在4.8%,红按钮稳定在7.2%有了如此大的样本,才可以比较有把握地得出结论但在实际的操作中,不可能等 300 天再对一个实验进行分析得出结论可见,只有精确界定实验受众与合理预估样本量,才能确保实验快速迭代与结果的可靠性2. 影响样本数的因素如果从结果的可靠性出发的话,样本量越大,实验时间越长,那么实验结果就越可靠但是如果从实际工作出发,样本量越小,实验时间越短,才能保证快速上线新实验,试错的成本也越小所以想要在这两者之间找一个平衡,其实就是要找到一个最小的样本量,保证达到实验结果可靠,但是又不会浪费过多的时间和样本数影响实验所需样本数有三大因素:原版本(对照组)的转化率、新版本(实验组)的转化率,以及统计显著性要求(1)对照组和实验组的转化率两组测试的转化率越小,所需的样本量就越大;反之,两组的转化率越大,所需样本量就越小因为需要足够的转化用户样本数,这个很好理解同时,实验组相比对照组转化率提升幅度越大,需要的样本量就越小;反之,提升幅度越小,比如从1%提高到1.05%,检测的敏感度要求就越高,需要的样本量就越大(2)统计显著性的要求什么是统计显著性?其实就是进行增长实验的时候,通过检验对照组和实验组的转化率差异,来确认这个差别是真实存在的,还是随机误差导致的这就是”统计显著性”的概念如果检验发现某个指标的转化率差异,且统计显著性达到95%,就说明有95%的可能性这个差异是真实存在的也就是说实验组确实比对照组好,只有5%的可能性是随机误差导致的统计显著性越高,随机误差的可能性越低,结果就越可靠一般做增长实验,建议至少要求95%的统计显著性3. 实用工具:AB测试样本计算器介绍一个工具:AB测试样本计算器,网址是https://www.eyeofcloud.com/abtest-widget/124.html它主要有三个输入字段:原始版本(对照组)的转化率、优化版本(实验组)的转化率,以及统计显著性要求(可以在90%-100%之间选择)输入这三个数字后,它会自动计算出每个版本所需的样本数量比如,原始版本转化率15%,优化版本转化率18%,统计显著性要求95%,它会算出每个版本需要1700个样本如果新版本的预期转化率与原始版本差别很小,比如只有16%,那每个版本所需的样本数就会大幅增加03 估计实验时长1. 实验时长的计算方法学会预估实验样本后,我们进一步预估实验需要多长时间也就是收集到足够样本以确认统计显著性所需的时间计算公式很简单:预估实验时长=实验总样本数(各版本所需样本数之和)÷实验页面或路径的日访问量举例,如果分两个版本实验,每个版本所需样本总量是2900,则所需总样本是29002(两个版本),即5800个假设该页面每日访问量是580,那预计需要实验10天才能得到统计显著的结论如果要分4个版本测试,所需总样本加倍,预估实验时间也就加倍到20天2. 实验设计的合理性检查(1)样本数量与实验时长的平衡为什么要预估实验样本和时长?就是为了检查实验设计是否合理通过预估,我们可以知道达到统计显著需要多大样本,有没有那么多流量或用户量,实验要跑多久,时间是否过长如果一个200多天才能完成的实验,基本就等于判了死刑(2)反思:小流量情况下的实验设计所以,如果发现实验样本不够或时间冗长,就得想办法:a.减少实验版本数能不能减少实验版本数?比如不要测四个版本,只测两个版本,版本数越少,所需总样本就越小,所需时间也越短b.更换实验页面假如想测试在下单转化路径中加入其他用户的推荐,如果放在最后几步,那里流量可能很少,不如放到产品详情页,同样的思路,那里的流量会大很多,有助于快速得出结论c.增加流量如果面临样本量太小的问题,是不是应该先设法吸引更多用户,留存更多用户,再去做实验?d.加大改动幅度在小流量情况下做一些很小的改动,预期变化很小,其实意义不大因为流量或用户数越少,实验改动就要越大,小修小补作用不明显04 大公司与小公司的实验策略我们经常听说Facebook、抖音每时每刻都有成千上万个实验在跑,Google把一个蓝色按钮测了20多个色号,得出了非常好的结果背后的逻辑是,这些产品的用户量巨大,可以进行大量细小的实验即使每个实验的结果提升不大,但基数庞大,最终对利润和营收的贡献也很可观但如果你在一个小公司,流量和用户没那么多,也去测20个按钮色号,很可能的结果是,等到地老天荒也没等到统计显著的结果,公司都黄了所以建议流量和用户少的情况下,要做大的改动,同时想办法提升用户基数和流量最后总结一下,”要致力于品质的提升,而不是数量的增加”这句话同样适用于AB实验设计通过精细化设定实验受众,合理预估样本量和实验时间,可以在保证数据质量的前提下,有效地减少实验的盲目性,提高实验的成功率和效率,进而为产品和用户体验的优化提供可靠的数据支持本文由 @小黑哥 原创发布于人人都是产品经理,未经许可,禁止转载题图来自 Unsplash,基于 CC0 协议该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
联系我们
在线咨询:
0 评论