产品经理好用易上手的数据分析方法

时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络

小提示：您能找到这篇{产品经理好用易上手的数据分析方法}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的产品经理好用易上手的数据分析方法内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

编辑导语：数据分析是每一位产品经理必备技能，如果你想掌握一些好用又简易的数据分析方法，那么，我推荐你看这篇文章，本文作者据此总结了许多类型的分析方法，既简单又好用，感兴趣的朋友来一起学习吧。

前面《数据分析之前知道这 7 件事，少花 80% 时间》讲了在数据分析之前需要知道的事，在进入数据分析阶段，笔者总结整理了一些好用易上手的分析方法，让你事半功倍。以下，Enjoy~

一、数据分析的金字塔模型

数据分析从难易程度区分大致可以划分为 5 个层级，覆盖了数据整理、统计、机器学习的过程，数据分析后的决策环节不在本次讨论的范围。

5 个层级分别包括了：量化现况、量化变数之间的相关性、量化变数之间的因果关系、预测未来和求最佳解。

Q1：SaaS销售人员拜访新客户次数的走势如何？

比如层级 1，需要解的问题是量化现况。可以使用“叙述统计”、“数据可视化”等方法，把数据通过图表的靠谱的找抖音代运营哪里有方式表现出来，从中观察图表的数量、频次、波动、分布等等，这个层级主要是依赖可视化后的观察得以实现。

Q2：SaaS销售人员拜访新客户的次数，跟营业额有相关吗？

Q3：市场部增加广告投放量，就能得到更多订单吗？

像层级 2、3 中探索数据的相关和因果关系，是需要藉由数据观察后，再进行二次推论，属于数据挖掘。

Q4：SaaS产品经理追踪哪些数据，才能知道用户下个月会不会取消订阅？

Q5：CEO该如何分配员工开发新客户，才能让营收最大化？

而层级 4、5 则是希望通过已有数据的样本，去预估未来数据的可能性/概率、最佳解或近似解，属于数据探索。

对于不同层级，需要面对的问题也不一样，可以层层递进，由易到难，逐一选择数据分析需要解的问题。在进入数据分析阶段，具备数据分析的层级结构认知尤为重要，这决定了你能够在对的时机做对的事情。

二、7 种常见数据分析方法

2.1 总量分析

用于描述某个母群（population，指你想了解的集合体，可能是顾客或产品）或某个市场区隔，或者比较两个市场区隔的差异，是最常用、最简单的分析方法。

Q：哪些人会在酒庄办婚礼呢？

查阅过往 3 年、300 位顾客的预约记录→分析性别、年龄、户籍地址→ 85% 女性、平均年龄 33 岁、60% 是当地人→如何针对这群人沟通、拓展业务？

2.2 相关分析

观察 2 件或多件事情间的关系，期望能用一个因素解释或驱动另一个因素。

Q：为什么推出某个功能后，转化率会下降？

假设 1：转化率跟浏览器有关。
假设 2：转化率跟有无网络信标（web bug）有关。

结论：

Chrome 浏览器如果有网络信标，会造成转化率下降 13%。
Chrome 浏策划览器造成转化率下降 20%。
60% 的转化率下降仍然无法解释。

注：网络信标（web bug）是一个放在网页或电子邮件上的文件对象，用于监测用户的行为。

2.3 趋势分析

分析一段时期内的趋势，常用于检视一段时间内的销售绩效或营业成长率，目标是找出中断的节点，并指出那段时期内受影响的原因。

Q：营收增长，但成长率却下降，原因出在哪？

步骤 1，观察一段时间内的趋势。

步骤 2，加入各产品、各渠道的营收和成长率。

观察结果：S 成长率不断下降、M 的站外成长率却在上升。

步骤 3，量化影响。

观察结果：S 占营收成长率下降的 84%，必须集中心力采取行动。

2.4 规模估计

在缺乏历史的情况下，以结构化的方法估算。通常用于进军新市场的企划，或是要了解未上市产品的销售潜力。

Q：想在广东某城市推广小学夏令营产品，怎么估算市场规模？

步骤 1，分层。将问题切割，找出可能不同的市场区隔。

市区和郊区的小学密度可能不同

步骤 2，设计方程式。确定哪些数值和因素可能影响正在估算的规模数值。

城市、人口和财富可能影响小学的数量

小学数量=城市数量x每座城市的人口数x每群人口的学校数量x财富因数（市区和郊区的财富对比）

步骤 3，计算方程式。对方程式里的数值进行假设。

市区人口=50K，郊区人口=10K。

每10K人有1所学校，市区的财富是郊区的2倍。

市区小学估计值：20x50000x1/10000=200

郊区小学估计值：20x10000x1/10000=20

约有220所小学

2.5 预测分析

分析目前和过去的事实数据，来预测未来的事件或行为，最常使用的统计技术是回归和分类。

Q：结账的转化率变低了，为什么？

利用逻辑回归建立模型（特别的回归形式，适用于因变数是二元性质，“有或没有”，此案例考量即为有转化或没转化）

因变数：想要预测的目标，如转化率。

自变数：指可能和因变数有关系，或是没有关系的一些未知数，由所提出的假设决定，如蓝色按钮、横幅广告等。

2.6 市场区隔

区隔顾客或产品成有意义的群组，通常是为了锁定目标，透过量身打造的方式，让该目标群体产生更高的价值。

Q：哪些客户只想折扣？哪些客户想要第一手信息？

用 RFM 模型为顾客分组。

2.7 顾客生命周期分析

观察消费者的购买流程，以确定某一群顾客正处于哪个阶段，以及怎么将他们推向下一个阶段。

Q：怎么让使用者成为重度玩家？

同类群组分析→ 客户存活的天数过短，就必须加强使用者体验；若新客户人数逐渐减少，则必须加强广告或增加促销活动。

三、4 种统计数值掌握数据特性

手上有一群数据的时候，要快速掌握数据的特征，可以从“平均数”、“中位数”、“众数”和“标准差”下手。

Q：这是公司全体员工职业 IT 素养程度报告，身为公司数字化转型的负责人，该如何利用它拟定教育训练策略？

整体实力中等，满分 10 分，拿到平均成绩为 5.8 分。

组织实力分布不均，中位数低于平均数，表示能力落后的成员较多，应依能力设计不同的课程，或由能力佳者带领落后者学习。

员工职业IT素养程度表

四、2 个叙述统计的陷阱

叙述统计虽然能够帮助我们掌握数据的特征，快速产生观点，但在应用平均数、百分比推导结论时，要留意陷阱。

4.1 平均数陷阱

平均分提高了 1.2 分，表现优异。

平均数虽然提高了，但标准差只缩小 0.6分，代表组织内程度差距未缩小，可能是有IT背景者进步幅度大，拉高了平均分。

4.2 百分比陷阱

近 3 年员工职业 IT 素养的成绩持平，2021 年成绩跟 2019 年一样。

不要用百分比去推算分数是否成长，因为每年的基期不一样，所以增长或减少的数值会不同。下表所示，2021 年成绩比 2019 年少了 0.71 分。

五、5 种数据比较的方式

「比较」是让数据产生意义的有效方式，但怎么比、跟谁比？我整理了 5 种比较方式，以拿到某品牌挂耳咖啡的销售数据为例。

5.1 差距比较：分析对象和比较对象的差异

Q：某公司挂耳咖啡包全年营收 3 亿在市场上的表现如何？跟竞争对手的差距为何？

步骤 1，选择比较对象，同类性质互比。

步骤 2，设定比较基准值，绘制条形图。

A：挂耳咖啡包为 A 公司主力商品，虽然 A 公司在咖啡包全年收入上超越我们，但比起 A 公司，我们具有多项产品同步发展的优势。

5.2 趋势比较：分析一段时期内市场、营收、产品的走势

Q：某公司挂耳咖啡包 2021 年营收 3 亿，跟前几年比有成长吗？成长了多少呢？

步骤 1，搜集近 10 年公司咖啡包营收数据，怎样做营销推广绘制折线图。

步骤 2，观察曲线走向，根据转折点、异常值推测变化的原因。

A：跟 2020 年比没有成长太多，但与 2012 年相比营收成长了 10 倍，显然贩售联名商品有效果。

5.3 指数分析：利用总体市场数据，判断品牌的目标对象

Q：某公司挂耳咖啡包在市场上哪个年龄层最有优势？

步骤 1，搜集比较对象的人口分布比例。

步骤 2，计算指数数值。当指数小于 95，代表在该年龄层为相对少数，指数大于 105 代表在该年龄层为相对多数。

A：咖啡包在 25~44 岁的客群中有竞争优势，45 岁以上的客群还需要经营。

5.4 异质比较：分析数据的结构是否明确偏向或集中某处

Q：假设挂耳咖啡包月度营收为 250 万，跟公司的其他产品相比表现算好吗？

步骤 1，将所有产品月度营收分布由大至小排列，并记录区间次数。

步骤 2，绘制直方图，注意分散的程度、峰值数量。

图 1：一个峰值位于中间、图偏向「钟型曲线」，代表数据为常态分布，产品的营收平均值与中位数较不受异常值影响，分布比较平均。

图 2：有 2 个峰值，平均数、中位数受异常值影响，数据分布不平均。

A：产品月度营收分布如图 1 所示，代表产品的月度营收分布平均，集中在 151~200 万区间，咖啡包收入 250 万高于平均，表现不错。

5.5 变数分析：比较多个事件的关系，希望找到其中一个事件能去解释另外一个事件

Q：网络广告费用的多少，是否影响挂耳咖啡包的销售额？

步骤 1，利用 Excel 的 CORREL 函数计算广告投入费、销售额的相关系数，系数越接近 1，代表广告费投入与销售额呈正相关；系数越接近 -1，则表示两者为负相关。

步骤 2，将数据绘制成分布图。

A：广告投入费用与产品销售额呈正相关，代表投广告的行销策略有效，下次退出新品时可参考此策略。

六、数据比较的陷阱

Q：患者死亡率是评估医疗品质的指标之一，试试从下表评判，A、B医院，哪间医疗品质更好？

无法评判。

参考表 1 时，B 医院平均死亡率比 A 更低，B 医院表现比 A 更好；但表2加入「轻重症死亡人数」变项时，A医院无论在轻症、重症死亡率都比 B 更好，为什么会这样？

原因：

因为 A 医院的重症人数是 B 的3倍以上，导致平均死亡率被拉升，只要 A、B 医院轻重症患者比例相同，就不会有类似的问题。这个案例被称为「辛普森悖论」现象，也就是当某项统计变项为搜集到（此例为轻重症人数比例），造成统计结果逆转的现象。

避免方式：

比较对象程度一致：医院不跟诊所比。
依分析目的决定数据分析方法：整体状况适用平均数分析；群体内比较则搜集更多统计变项的数据。

七、相关关系与因果关系

Q：许多世界知名的领导者都爱好运动，前美国总统奥巴马从小打篮球、youtube总裁沃西基擅长冰球。所以我们可以推测，「擅长运动的孩子，学习力更好」？

运动与学习力之间应为相关关系而非因果关系，两者之间可能存在着第三变数，也就是家长对教育的重视程度。

培养运动能力，未必能提升学习力。运动能力→学习能力→家长对教育的重视程度。重视教育的家长，会引导孩子学习，所以他们的成绩比较出色。重视教育的家长，会注意孩子的饮食均衡，导致体力变好。

X 导致 Y 或 Y 导致 X，其实存在另一个变数 Z，是 Z 导致 X 和 Y。举例来说，冰淇淋的销售量会随着穿短裤的人数增加而增加，不是「越多人穿短裤」导致「越多人买冰淇淋」，而是两种发生的共同原因是「夏天气温较高」。

如果混淆了因果和相关，比方广告预算越多，销售额越高，容易导致做出错误的商业决策。所以，较谨慎的做法是进行随机对照实验（RCT，Randomized Controlled Trial），或者称 A/B 测试（A/B Testting），就是把受试者随机分为两组，两组只有一个变数不同，如果导致不同结果，便可以称该变数导致某结果，或变数和结果有因果关系。

八、利用 A/B 测试，确认因果关系

南美国总统奥巴马的竞选团队，便是利用 RCT 测试哪一种首页的注册率最高。结果相比原本想选择「影片」和「望向远方的独照」，最后经对实验选择「奥巴马全家福」的方案让注册人数多了 288 万人，并多募得 6000 万美元的政治献金。

如果环境不允许，或是没有资源做随机对照实验，《数据分析的力量》建议用「自然实验(natural experience)」替代，就是进行一系列假设、验证，厘清因果关系。

举例来说，想知道改变自付额，对医疗服务使用频率的影响。可以先假设「如果自付额会影响医疗服务的使用，70 岁以上的人，应该会比 70 岁以下的人，更常使用」，因为日本法令规范，70 岁开始，自付额由 3 成降为 1 成。

查询公开数据后发现，随着年龄愈大，医疗服务的使用者也愈多。但到了 70岁，原本缓慢上升的曲线突然大跳跃！

这个「断层」代表有变数发生，而 69~70 岁比较普遍的改变，就是自付额的高低。自付额和医疗服务的使用频率有因果关系得到了验证。

#专栏作家#

龙国富，公众号：龙国富，专栏作家，人因工程硕士。致力于终身学习和自我提升，分享用户研究、客户体验、服务科学等领域资讯，观点和个人见解。

本文于，未经授权，。

，基于CC0协议。

上一篇：私域运营中的数据分析该如何做？
下一篇：九种常用的数据分析模型