时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{问卷数据,该如何着手分析呢?}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的问卷数据,该如何着手分析呢?内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
拿到一份问卷数据,该如何着手分析呢?且慢,要做分析得先检查数据是不是完整、可信,所以先从数据清洗开聊。 一、数据清洗(1)一份数据可能经历过编码、合并、拆分等,先检查数据是否完整,是否有异常值? 选择题、排序题这类封闭题型的答案是有限制范围的,针对这类题型,在spss内使用频率统计功能,查看每个题目的总量,缺失值,是否有异常值。比如:性别只有1、2两个选项,出现其他选项则说明有问题。有个小技巧,在Excel中可以使用筛选功能,快速查看每个题目的结果是否有异常值。 (2)有些用户可能会不认真填答,因此需要检查逻辑合理性,是否有前后矛盾的情况? 有些问卷,前后题目有逻辑关系,可以用这类题目做测谎题,筛选出前后矛盾的答案,比如前边用户选择了主要的出行方式是“自己开车”,后边却选择自己的年龄“小于18岁”,那么这类问卷可以视为不认真填答的,删除。 如果没有合适的题目做测谎题,也可以在编制问卷的时候设置测谎题,两种设计思路:
如果技术支持,也可以通过后台数据和用户问卷中的数据做匹配,常用的是性别、年龄、常居地之类的数据,也可以问一些明确的行为数据,比如是否用地图买过火车票。 需要注意的是:选择稳定的明确的数据来做校验题目,不要使用需要回忆的数据来校验,用户的记忆是模糊的有误差的,使用频率、使用年限,这些都不适合做校验,因为用户的记忆很可能与实际行为不完全相符。 二、样本加权问卷调研绝大部分是抽样调研,如果想通过样本的情况去推测整体的情况,除了要考虑最小样本量之外,还需要考虑样本的代表性。群体有很多属性,并不是要求样本的每个属性都和整体一致,而是关注那些对研究问题最有影响的属性,在该属性上样本和整体尽量保持一致。 假设:年龄对用户忠诚度的影响非常大,对出行方式没有影响,那么在研究忠诚度时就需要考虑到年龄因素,而在研究出行方式时,就无需考虑年龄因素了。 一种是事前控制,区分出不同年龄段的用户,,该方法成本高很少用。 另一种是事后控制——加权 。比如问卷收集到的用户,与整体用户群分布不一致,但是我们想知道整体用户的忠诚度,此时可以通过加权的方式去调整。 具体方法如下: 先根据整体和样本的年龄分布,计算出权重值,然后再使用spss的权重功能,给数据加权。加权后再统计忠诚度。 值得注意的是,不要为了省事儿,直接计算出样本各年龄段的值,然后给个年龄段的值赋个权重,求均值。这样的结果是不对的,必须要使用spss的加权功能。 如果有多个因素,挑选最重要的一个因素加权。如果非要考虑多个因素,那么需要了解多个因素交叉后的整体分布。比如既要考虑性别、又要考虑年龄,那么需要将性别和年龄交叉,知道整体男性的年龄分布、女性的年龄分布,再计算权重,成本太高了。 三、分析思路我们先假设一份调研问卷,带着这份问卷来看分析思路。 假设要针对大学生群体使用地图APP的情况做个调研,设计了以下问卷,通过这个问卷我们能做哪些分析呢? 3.1 描述统计,看整体分布情况统计各选项的数量、频率是最常用到的分析,然后通过图表展现出来,可以非常直观的看出整体分布情况。 通过这个问卷,我们可以得到:
3.2 差异分析,找影响因素除了看整体分布情况,我们还可以通过差异分析,探索更多的信息。 做差异分析,第一步先找到两个可能有关系的因素;第二步将两个因素交叉统计结果,根据结果在这两个因素间做假设;第三步根据这两个因素的数据类型,选择合适的统计方法,验证假设。 通过这个问卷,我们可以分析: (1)男性和女性对手机地图的选择有差异么 先分别计算不同品牌的用户性别占比,结果发现不同品牌的男性占比不同,性别和手机品牌都是分类变量,因此使用卡方检验。 (2)男性和女性,对手机地图的忠诚度有差异么? 先统计不同性别用户的NPS值,NPS值是等距数据(NPS这个题目,本质上是李克特量表,对该数据是否是等距数据尚有争议,但大部分情况按照等距数据处理),我们想要看男性、女性两组之间的差异,采用T检验。 (3)不同品牌的手机地图,用户的忠诚度有差异么? 与性别变量不同的是,手机品牌有4个维度,T检验只能做两组之间的差异检验,多于两组的时候采用方差分析。 (4)是否由于男性用户多导致腾讯地图的忠诚度低呢? 比如男性的忠诚度更低,而不同品牌之间男性的占比又不同,腾讯的男性用户较多,就会假设:是否由于男性用户多导致腾讯地图的忠诚度低呢。 当有两个因素的时候,可以采取协方差分析,在做方差分析的时候,将性别作为协变量纳入,分别看男性组,不同地图品牌间有差异否,女性组不同地图品牌间有差异否。 总结一下,做差异检验的统计方法常用的有三种:卡方检验、T检验、方差分析。但是,统计只是辅助判断的一种工具,也有些情况,直接看交叉后的结果就能发现差异巨大,无需统计检验肉眼都可以判断,也有些情况下,统计结果显著,但是差异实在是很微小,也不能做出明确的结论。 所以统计方法并不是重点,找到可能有关系的因素才是重点,学术研究一般会根据过往的研究提出假设,而实际工作中,绝大部分靠经验,多熟悉产品多了解用户,才会有思路。 之前有人提出要做女性地图,认为女性更看不懂地图,需要在图面上有不同的处理。实际调研下来,发现性别既不影响用户使用地图的习惯、也不影响用户对地图的感知。相反年龄明显的影响地图的使用习惯,接下来就需要进一步挖掘年龄的差异了。 3.3 相舆情监测未来趋势关分析,找影响因素,以及影响程度(1)通过差异分析,我们了解到性别会影响用户的忠诚度,我们还想接着探索用户常用的功能个数是否会影响忠诚度,是不是用的功能越多,忠诚度越高呢? 此时需要用到相关分析,使用功能个数是等距数据,使用spss计算Pearson积差相关系数。相关系数介于-1~1之间,绝对值越大关系越密切,符号代表相关的方向。通常情况下,绝对值大于0.4就可以认为这两个数据之间有比较强烈的关系了。所以绝对值越大,说明这个因素的影响程度越大。 如果想探索使用频率和忠诚度之间的关系呢,使用频率是顺序数据,此时需要计算Speaman相关系数。相关是在工作中使用比较多的方法,需要注意的是,相关分析只能解释两个变量之间有无关系,不能得到因果结论。因果结论是我们基于逻辑赋予的,工作中,相关关系已经足够我们做判断了。 (2)如果我们不只是想探索单个因素与忠诚度之间的关系,还想要探索多个影响因素合并在一起对忠诚度的影响,此时可以使用多元回归的方法。 在本调研中,我们可以探索用户遇到使用问题的次数与忠诚度的关系,用户遇到的问题有4种,分别是定位问题、地点问题、路线问题、性能问题。以NPS值为因变量,将这四个问题一起作为因变量,求一个多元回归方程。但是多元回归方程的建立,对数据的要求比较高,实际调研中使用的非常少,相关系数基本够用了。 不论是相关分析还是回归分析,都只能反映出变量之间的线性相关关系,如果变量间是非线性的关系,是无法体现在相关系数上的,因此在做相关分析之前,可以先做一个散点图,直接观察一下,两个变量间是否有其他的关系可能。 如果是自己做调研,不是拿到数据了才去想怎么分析,而是在编制问卷的时候就要想清楚:我要了解什么问题,需要什么数据支撑,该用什么方法分析? 文中提到的所有统计方法,在统计书中都可以找到细致的操作步骤。本文只是列了最粗浅的统计方法,但是往往粗浅的才够直接,对实际的决策最有支持力。 参考书目:《量化研究与统计分析》邱皓政
本文由 @乔溪 于。, 题图来自 Unsplash,基于 CC0 协议 |
上一篇:BI函数字典之时间日期函数
下一篇:机器学习 | 贝叶斯算法及应用
小提示:您应该对本页介绍的“问卷数据,该如何着手分析呢?”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通问卷数据,该如何着手分析呢?的相关事宜。
关键词:1年, 初级, 问卷数据分析