时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{这篇文章把数据讲透了(四):数据挖掘}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的这篇文章把数据讲透了(四):数据挖掘内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
一、前言上一期文章中,我们已经了解到“数据”是一个庞大的体系(如下图所示);并用了“洗菜、择菜”的例子,为大家讲解数据清洗的含义;而今天笔者主要给大家讲解当净菜备好后,如何对净菜进行加工烹饪,让它变成有价值、有意义的美味佳肴,即数据挖掘的过程。 二、数据挖掘(烹饪)危机公关如何回应媒体记者数据挖掘是对既定的“净数据”进行加工利用的过程,我们可以把它看作是烹传统企业网络营销意义饪加工的过程。 而数据挖掘是有一定规则和相应模型的,这一点我们也可以通过一个类比进行理解。 清洗后的高质量数据就像是“净菜”,而数据挖掘模型就像是各种“菜系”,我们知道,就算“净菜”材料一致,但菜系(数据挖掘模型)不同,最终得到的成品也是截然不同的! 下面是数据挖掘中较为常见的几个“菜系”(模型),下面我们配合模型对应的使用场景逐一阐述 总的来说,数据挖掘模型可以通过“监督模式”进行大致分类,分类为监督模型、非监督模型:
了解了数据挖掘的基本类别,下面我们来切入场景,看一看这些具体的算法模型如何帮助我们在现实场景中进行数据挖掘。 聚类分析——其中以K-Means算法最为典型。 原理与步骤:
使用场景:商业领域,聚类分析常结合(RMF模型)被用来进行客户细分;生科领域,聚类分析常被对动植物分类和基因进行分类,进行种群研究。 实操案例:运用K-Means算法对航空业客户进行价值衡量和细分。 1. 参考RMF模型与数据集,自定义聚类类别得到数据集后删除不相关、弱相关或冗余属性,如会员卡号、性别等,可以得到与RMF模型相关的5个属性分别是:C(平均折扣率较高、仓位等级较高)、F(乘坐次数)、M(总里程),R(最近乘坐航班)低、L(入会时长),我们根据属性更够对客户群进行分类,鉴别出重要挽留客户、重要保持客户、低价值客户等。 2. 已确定5个聚类类别,套入代码进行聚类即可(代码如下)3. 针对结果进行可视化分析,并对每一个customer进行标识回归分析——具体分为两大类(逻辑回归、线性回归)。 那么,有同学就会问了,逻辑回归和线性回归究竟有什么区别呢? 其实,两者属于同一个家族(广义线性模型),但它们面向的因变量类型不同,逻辑回归的因变量是分类变量(男女、职业…),线性回归的因变量是连续型数字变量(如1000人的工资,单位元)。 实操演练:最小二乘法OLS回归(属于线性回归的一种)——例如,下方,我们对工资与各项贷款余额的关系进行研究。 STEP1. 导入数据后,画出散点图,观察数据大致趋势,并画拟合曲线:
STEP2. 导出相关回归数据参考指标,如拟合R方(越接近1越好,一般来说0.7以上已经算相关性比较强,拟合效果较好)、P值(一般情况<0.05为理想拟合)等,对回归方程进行检验。 综上,我们可以得到Y(工资)=0.0379X(各项贷款余额)-0.8295。 三、结语本期,笔者通过一个“烹饪和菜系”的例子,带着大家了解了数据挖掘的常用模型,相信大家有所收获! 下期,笔者将在数据挖掘的基础上,讲解数据可视化,看看我们如何简单易懂的把数据故事讲懂、讲透! 往期文章: 持续更新…
本文由 @小陈同学ing. 于,未经作者许可,。 ,基于CC0协议。 |
上一篇:如何利用数据分析技术做好舆情挖掘
下一篇:数据分析方法:结构分析法
小提示:您应该对本页介绍的“这篇文章把数据讲透了(四):数据挖掘”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通这篇文章把数据讲透了(四):数据挖掘的相关事宜。
关键词:1年, 初级, 数据挖掘,