时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{数据分析必须警惕的坑:辛普森悖论}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的数据分析必须警惕的坑:辛普森悖论内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
近些年来,随着大数据行业的蓬勃发展,“Data-Driven(数据驱动)”受到越来越多企业的追捧。越来越多场景的数据采集、越来越成熟的分析模型、越来越强大的分析效率,这些无疑都是精细用户行为分析、优化决策体系的智举。 ask社区问答营销然而在数据背后,隐藏着一些似是而非的谬误,比如“辛普森悖论”,作为数据分析人员必须警惕。 悖论出处:
一所美国高校的两个学院,分别是: 法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视,现作如下统计:
无论在法学院还是在商学院,女生的录取比例都高于男生,由此可以推断学校在招生时更倾向于招女生吗? 当计算全校录取情况时,男生录取的比例为209/304=68.8%,女生录取的比例为143/253=56.5%。男生的录取率要高于女生,这下,恐怕要轮到女生感到不公了。 那么问题来了:该大学的招生政策,到底有没有性别歧视?到底是歧视男生还是女生? 先不说结论,我们再来看一个实际工作中会遇到的案例。 工作中的典型案例:
一般来说,IOS平板的付费转化率比Android平板高出很多,而IOS手机的转化率也相对更好。这种情况下,设备类型就是复杂变量,如果数据是根据设备类型得到,那么其他的数据就可能被完全忽略。 接下来我们来对比这一组数据: 由此可见,Android设备转化率无论在平板端还是在手机端的转化率都小于IOS设备,这也很我们的常规预期相符。 当计算全设备情况时,Android的转化比例为550/10000=5.5%,IOS的转化比例只有200/5000=4.0%。这也是题干中“聪明”的数据分析师得出IOS版本应该下线的根源。 原因与应对策略: 误区产生的原因说起来也很简单,就在于将“值与量”两个维度的数据,归纳成了“值”一个维度的数据,并进行了合并。 如果要避免“辛普森悖论”给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。而在实际转化例子中,就需要用如“ARPU”、“ARPPU”这样看似相似实际上有很大差异的指标来进行分割。 同样地,如果要更客观分析产品的运营情况,就需要设立更多角度去综合评判。还是拿上述的设备转化率为例,产品层考虑转化的前提会优先考虑分发量、用户量、运营思路、口碑等等。而往往为了实现最后的转化需要,需要更多前置目标做铺垫。 常用的前置目标:
大多数的用户是不会付费的,免费产品的综合付费转化率比较低,是因为把付费玩家和非付费玩家综合到了一起,所以任何对免费用户的衡量都是非常低的。因为大多数的用户是不付费的,所以ARPU以及ARPPU相差很多。 A/B测试中的注意点: 联想到产品运营的实践,一个常见的A/B测试误判例子是这样的:拿1%用户跑了一个重大版本,发现试验版本购买率比对照版本高,就说试验版网络推广故事本更好,我们应该发布试验版本。 而事实上,我们选取的试验组里往往会挑选那些乐于交流、热衷产品、又或者是付费率高粘性高的用户,把他们的数据与全体用户对比是不客观的。当最后发布试验版本时,反而可能降低用户体验,甚至造成用户留存和营收数据的双双下降。 收获与总结: 避免辛普森悖论的关键是要同时参考不同用户间的事实全貌。 第一,准确的用户分群在数据分析中是非常重要的,尤其是在免费产品当中,平均用户不仅不存在,而且是误导研发的因素之一,所以关键在于利用特征将用户进行合理划分。 第二,在一个具体的产品中,普适型的数据(如粗暴的对比IOS和Android总体情况)是没有多大参考意义的,一定要细分到具体设备、国家、获取渠道、消费能力等等再进行比对才有价值。 第三,斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。 用户分析常用缩略词:
作者:数数科技,公众号,数数科技(ThinkingData) 本文由 @数数科技 于。, 题图来自 Pexels,基于 CC0 协议 |
上一篇:客户流失预测模型,如何进行效果评估
下一篇:数据学习行动方案:从0开始学会“数据驱动增长
小提示:您应该对本页介绍的“数据分析必须警惕的坑:辛普森悖论”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通数据分析必须警惕的坑:辛普森悖论的相关事宜。
关键词:3年, 中级, 辛普森悖论,