时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{数据的比较分析(三):假设性检验在数据比较}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的数据的比较分析(三):假设性检验在数据比较内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
上两节中我讲到基于基准的对比,和小米公司的营销目标基于不同版本之间的对比;可以订阅我专栏看回我以前的文章。 这章节我要分享一下假设性检验在其中的一些应用,“假设性检验”的应用范围确实非常之广,现在最常用在一些AB测试当中,现在互联网产品的AB测试很多时候都是在流量非常充足的情况下进行的,误差幅度相对比较小,但是当在做用户的可用性测试的时候,样本的数量收到很多方面的因素限制的时候,我们就需要如何用有限的样本来做数据的分析工作。 数据的分析其实就是一个不断反复验证的过程,“假设性检验”其实就是基于反正法来的;接下来我通过一个例子来慢慢深入讲解“假设性检验”。 从一个案例说起案例:一款原版本的CRM系统,找14个用户去测试使用,计算出该14个用户平均任务时长是33秒,标准差是22秒;对该系统进行改版之后,另外选13个用户去测试使用,计算出该13名用户平均任务时长是18秒,标准差是10秒。 我们这个时候可以提出假设:新版本比原版本快15秒? 第一步:使用t检验的方法,先计算t值第二步:通过t值去计算出p-value值为了求得事实上并不构成实质差异的差异值有多大,我们在t表中查找2.3,来看2.3标准差上面和下面的区域百分比是多少。所需要的另外一个变量就是自由度,其值大概为样本量大小减去2(13-2=11)。使用Excel公式=TDIST(2.3,11,2),我们得到0.04,也称为p值。 第三步:对p-value值进行分析p-value值为0.04表示差一步显著的情况下,只有4%的差异会大于15秒。也就是说2.3个标准误占了t分布中96%的面积(1-0.04)。换个说法,依照概率,在100次中,只有4次出现这种情况。 当然有可能的情况是两个样本取自的总体之间没有差异(既均值差异为0),但是更有可能的是均值差异为5、10或15秒。按照惯例,当p-value值小于0.05时,有充足的证据说明差异并不是由概率造成的。换句话说,我们可以得出结论两个版本的CRM系统存在显著差异。 要记住,虽然统计的结论是其中一个CRM应用设计会更快,但是我们尚未完全证明它是更快的。我们只是说两个观察到的均值存在差异的样本,其各自总体的均值差异为零(既观察到的15秒的差异是由概率造成的)不太可能。 从假设性检验的逻辑去分析上述案例均值检验得到的p-value值告诉我们的是两个均值无差异的概率有多大。无差异的假设就是指零假设。p值针对的零假设的可信度。p值小说明零假设可信度低,不太可能为真。如果零假设不太可能为真,那意味着我们的研究假设为真——具体地说,是存在差异的。 在两个CRM设计中,任务时长均值差异为15秒。我们已经评估这么大的差异发生的概率只有4%,所以零假设为真的概率为4%。看上去似乎择备假设——既我们的设计确存在显著差异——为真的可能性更大。 使用零假设,只需要充足的证据(而非定义性的证明)来说明两个均值直接差异为零食不太可能的 ,至少你可以证明一些差异的真实性。差异量的大小,当然也是重要的,对于任何的显著性统计,你都需要计算差异的置信区间,来为实际的显著性统计提供一个参考。 在《数据的比较分析(二)》中有相关的计算法方法,在这个例子中,95%的置信度是1.3到28.7秒。换句话说,我们有95%的信息说差异至少为1.3秒,也就是说任务时长的缩短量在轻微的4%(1.3/33)到跟容易引起注意的87%(28花都液压阀企业网络营销策.7/33)之间。 假设性检验的两类错误类形一错误:我们可能会说两者之间存在差异,而事实上并不存在。 类型二错误:我们得出的结论说两者之间不存在差异,而事实上存在。 p-value值是告诉我们犯类型一错位的概率,当见到p-value值等于0.05时,我们将其解读为当实际差异为零时,得到一个这么大或者比其他更大的观测差异的概率为5% 总结产品的打磨也像是科学研究一样,都是在不断的假设、实验、验证,且不断的推倒重来的过程,每一步都需要不断去论证。
本文由 @平遥抒雪 于。, ,基于CC0协议 |
上一篇:运用好心理统计和测量,让你的调查研究更加专
下一篇:人人都要懂数据分析
小提示:您应该对本页介绍的“数据的比较分析(三):假设性检验在数据比较”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通数据的比较分析(三):假设性检验在数据比较的相关事宜。
关键词:2年, 初级, 数据分析,