数据的比较分析（三）：假设性检验在数据比较

时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络

小提示：您能找到这篇{数据的比较分析（三）：假设性检验在数据比较}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的数据的比较分析（三）：假设性检验在数据比较内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

数据分析是一个不断验证的过程，本文将通过案例分析来带领大家了解“假设性检验”的应用。

上两节中我讲到基于基准的对比，和小米公司的营销目标基于不同版本之间的对比；可以订阅我专栏看回我以前的文章。

这章节我要分享一下假设性检验在其中的一些应用，“假设性检验”的应用范围确实非常之广，现在最常用在一些AB测试当中，现在互联网产品的AB测试很多时候都是在流量非常充足的情况下进行的，误差幅度相对比较小，但是当在做用户的可用性测试的时候，样本的数量收到很多方面的因素限制的时候，我们就需要如何用有限的样本来做数据的分析工作。

数据的分析其实就是一个不断反复验证的过程，“假设性检验”其实就是基于反正法来的；接下来我通过一个例子来慢慢深入讲解“假设性检验”。

从一个案例说起

案例：一款原版本的CRM系统，找14个用户去测试使用，计算出该14个用户平均任务时长是33秒，标准差是22秒；对该系统进行改版之后，另外选13个用户去测试使用，计算出该13名用户平均任务时长是18秒，标准差是10秒。

我们这个时候可以提出假设：新版本比原版本快15秒？

第一步：使用t检验的方法，先计算t值

第二步：通过t值去计算出p-value值

为了求得事实上并不构成实质差异的差异值有多大，我们在t表中查找2.3，来看2.3标准差上面和下面的区域百分比是多少。所需要的另外一个变量就是自由度，其值大概为样本量大小减去2（13-2=11）。使用Excel公式=TDIST（2.3，11，2），我们得到0.04，也称为p值。

第三步：对p-value值进行分析

p-value值为0.04表示差一步显著的情况下，只有4%的差异会大于15秒。也就是说2.3个标准误占了t分布中96%的面积（1-0.04）。换个说法，依照概率，在100次中，只有4次出现这种情况。

当然有可能的情况是两个样本取自的总体之间没有差异（既均值差异为0），但是更有可能的是均值差异为5、10或15秒。按照惯例，当p-value值小于0.05时，有充足的证据说明差异并不是由概率造成的。换句话说，我们可以得出结论两个版本的CRM系统存在显著差异。

要记住，虽然统计的结论是其中一个CRM应用设计会更快，但是我们尚未完全证明它是更快的。我们只是说两个观察到的均值存在差异的样本，其各自总体的均值差异为零（既观察到的15秒的差异是由概率造成的）不太可能。

从假设性检验的逻辑去分析上述案例

均值检验得到的p-value值告诉我们的是两个均值无差异的概率有多大。无差异的假设就是指零假设。p值针对的零假设的可信度。p值小说明零假设可信度低，不太可能为真。如果零假设不太可能为真，那意味着我们的研究假设为真——具体地说，是存在差异的。

在两个CRM设计中，任务时长均值差异为15秒。我们已经评估这么大的差异发生的概率只有4%，所以零假设为真的概率为4%。看上去似乎择备假设——既我们的设计确存在显著差异——为真的可能性更大。

使用零假设，只需要充足的证据（而非定义性的证明）来说明两个均值直接差异为零食不太可能的，至少你可以证明一些差异的真实性。差异量的大小，当然也是重要的，对于任何的显著性统计，你都需要计算差异的置信区间，来为实际的显著性统计提供一个参考。

在《数据的比较分析（二）》中有相关的计算法方法，在这个例子中，95%的置信度是1.3到28.7秒。换句话说，我们有95%的信息说差异至少为1.3秒，也就是说任务时长的缩短量在轻微的4%（1.3/33）到跟容易引起注意的87%（28花都液压阀企业网络营销策.7/33）之间。

假设性检验的两类错误

类形一错误：我们可能会说两者之间存在差异，而事实上并不存在。

类型二错误：我们得出的结论说两者之间不存在差异，而事实上存在。

p-value值是告诉我们犯类型一错位的概率，当见到p-value值等于0.05时，我们将其解读为当实际差异为零时，得到一个这么大或者比其他更大的观测差异的概率为5%

总结

产品的打磨也像是科学研究一样，都是在不断的假设、实验、验证，且不断的推倒重来的过程，每一步都需要不断去论证。

本文由 @平遥抒雪于。，

，基于CC0协议

上一篇：运用好心理统计和测量，让你的调查研究更加专
下一篇：人人都要懂数据分析

相关内容

如何用数据分析，搞定新媒体运营的定位

最近，很多运营微信公众号、微博或头条号的小伙伴都...
一个靠谱的数据分析师是怎样炼成的？

近些年，互联网公司对数据分析师岗位的需求越来越多...
当数据分析遭遇心理动力学：用户深层次

本文篇幅较长，分为五部分，在中间部分有关于心理分...
数据分析的坑，都在统计学里埋过

为什么要了解统计学？对于普罗大众来说，统计学应该...
从入门到精通：互联网数据分析书籍清单

要想做好数据分析必须具备多方面的技能：需要看清数...
谷歌数字营销布道师：如何应用数据分析

最近读了谷歌数字营销布道师 Avinash Kaushik 写的《The ...
数据的验证价值：如何利用数据验证你的

数据的使用价值，以其目的，可以分为三类。一类用于...
【天天问每周精选】第16期：关于产品数

曾听到一个说法，不写程序的数据工程师不是好产品经...
产品经理要掌握的数据知识：数据的基本

“数据”这个词，是产品经理永远绕不过的话题，但从...
如何更有价值采集数据，高效分析数据？

本文将从数据采集的三大要点、如何让分析更有价值和...

小编精选

扫码咨询

小提示：您应该对本页介绍的“数据的比较分析（三）：假设性检验在数据比较”相关内容感兴趣，若您有相关需求欢迎拨打我们的服务热线或留言咨询，我们尽快与您联系沟通数据的比较分析（三）：假设性检验在数据比较的相关事宜。

关键词：2年, 初级, 数据分析,