主页 > 产品推广 > 这篇文章把数据讲透了（四）：数据挖掘

这篇文章把数据讲透了（四）：数据挖掘

时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络

小提示：您能找到这篇{这篇文章把数据讲透了（四）：数据挖掘}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的这篇文章把数据讲透了（四）：数据挖掘内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

编辑导读：随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗？本文将为你重新解读数据的概念和价值，以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的；因内容颇多，笔者将分几期为大家进行讲解。

一、前言

上一期文章中，我们已经了解到“数据”是一个庞大的体系（如下图所示）；并用了“洗菜、择菜”的例子，为大家讲解数据清洗的含义；而今天笔者主要给大家讲解当净菜备好后，如何对净菜进行加工烹饪，让它变成有价值、有意义的美味佳肴，即数据挖掘的过程。

二、数据挖掘（烹饪）危机公关如何回应媒体记者

数据挖掘是对既定的“净数据”进行加工利用的过程，我们可以把它看作是烹传统企业网络营销意义饪加工的过程。

而数据挖掘是有一定规则和相应模型的，这一点我们也可以通过一个类比进行理解。

清洗后的高质量数据就像是“净菜”，而数据挖掘模型就像是各种“菜系”，我们知道，就算“净菜”材料一致，但菜系（数据挖掘模型）不同，最终得到的成品也是截然不同的！

下面是数据挖掘中较为常见的几个“菜系”（模型），下面我们配合模型对应的使用场景逐一阐述

总的来说，数据挖掘模型可以通过“监督模式”进行大致分类，分类为监督模型、非监督模型：

监督模型：简单的说，就是让机器学会举一反三，它好比学生在学习时已知题目和答案，去学习分析如何解题一样，下次遇到一样的或者类似的题目就会做了；监督模型内的数据分为训练集和测试集，常见模型有决策树、LOGISTIC线性回归等。
非监督模型：简单的说，就是略去了监督模型中”举一反三“的过程，输入的仅仅是一堆数据，没有标签，也没有训练集和验证集之分，让算法根据数据本身的特征去学习，常见模型一般有clustering。

了解了数据挖掘的基本类别，下面我们来切入场景，看一看这些具体的算法模型如何帮助我们在现实场景中进行数据挖掘。

聚类分析——其中以K-Means算法最为典型。

原理与步骤：

选取K个中心点，代表K个类别；
计算N个样本点和K个中心点之间的欧氏距离；
将每个样本点划分到最近的（欧氏距离最小的）中心点类别中——迭代1；
计算每个类别中样本点的均值，得到K个均值，将K个均值作为新的中心点——迭代2；
重复234；
得到收敛后的K个中心点（中心点不再变化）——迭代4；

使用场景：商业领域，聚类分析常结合（RMF模型）被用来进行客户细分；生科领域，聚类分析常被对动植物分类和基因进行分类，进行种群研究。

实操案例：运用K-Means算法对航空业客户进行价值衡量和细分。

1. 参考RMF模型与数据集，自定义聚类类别

得到数据集后删除不相关、弱相关或冗余属性，如会员卡号、性别等，可以得到与RMF模型相关的5个属性分别是：C（平均折扣率较高、仓位等级较高）、F（乘坐次数）、M（总里程），R（最近乘坐航班）低、L（入会时长），我们根据属性更够对客户群进行分类，鉴别出重要挽留客户、重要保持客户、低价值客户等。

2. 已确定5个聚类类别，套入代码进行聚类即可（代码如下）

3. 针对结果进行可视化分析，并对每一个customer进行标识

回归分析——具体分为两大类（逻辑回归、线性回归）。

那么，有同学就会问了，逻辑回归和线性回归究竟有什么区别呢？

其实，两者属于同一个家族（广义线性模型），但它们面向的因变量类型不同，逻辑回归的因变量是分类变量（男女、职业…），线性回归的因变量是连续型数字变量（如1000人的工资，单位元）。

实操演练：最小二乘法OLS回归（属于线性回归的一种）——例如，下方，我们对工资与各项贷款余额的关系进行研究。

STEP1. 导入数据后，画出散点图，观察数据大致趋势，并画拟合曲线：

x=data[‘各项贷款余额’]
y=data[‘工资’]
z1 = np.polyfit(x, y, 1) # 1表示用1次多项式拟合
p1 = np.poly1d(z1)#拟合方程
f=p1(x)
plt.scatter(data[‘各项贷款余额’],data[‘工资’])
plot2=plt.plot(x, f, ‘r’,label=’polyfit values’)#画拟合线

STEP2. 导出相关回归数据参考指标，如拟合R方（越接近1越好，一般来说0.7以上已经算相关性比较强，拟合效果较好）、P值（一般情况<0.05为理想拟合）等，对回归方程进行检验。

综上，我们可以得到Y（工资）=0.0379X（各项贷款余额）-0.8295。

三、结语

本期，笔者通过一个“烹饪和菜系”的例子，带着大家了解了数据挖掘的常用模型，相信大家有所收获！

下期，笔者将在数据挖掘的基础上，讲解数据可视化，看看我们如何简单易懂的把数据故事讲懂、讲透！

往期文章：

持续更新…

本文由 @小陈同学ing. 于，未经作者许可，。

，基于CC0协议。

这篇文章把数据讲透了（四）：数据挖掘

上一篇：如何利用数据分析技术做好舆情挖掘
下一篇：数据分析方法：结构分析法

版权声明：以上主题为“这篇文章把数据讲透了（四）：数据挖掘"的内容可能是本站网友自行发布，或者来至于网络。如有侵权欢迎联系我们客服QQ处理，谢谢。

相关内容

7个步骤，学懂APP客户端数据埋点

文章为大家分析了数据分析的第一步：数据埋点的实操...
深入浅出：如何从0开始学习大数据挖掘分

文章梳理了学习大数据挖掘分析的思路与步骤，给大家...
小程序后台数据分析功能详解：并不是第

数据分析是要给相对比较专业的事情，很多时候因公司...
通往亿万美元的增长之路，这四大要素缺

本文作者将会给大家依次介绍市场/产品匹配、产品/渠...
实例｜产品新人如何进行数据分析

如果你一入职，就有产品大神带你，那么恭喜你，你很...
数据分析入门：初始数据埋点（二）

本文主要针对Key-Value字段的价值展开讨论，并简析其灵...
利用文本挖掘，浅析Mate 10上市后的用户舆

本文以华为Mate 10的京东评论数据为分析对象，利用文本...
你想要数据，是为了说服自己还是说服老

之前写过一篇《培养自己的数据感，做一个更好的产品...
公众号后台数据里，藏着哪些你不知道的

每次打开后台，我们看到的都是异常熟悉的阅读数、留...
以虎嗅网4W+文章的文本挖掘为例，展现数

本文作者将结合自身经验，并以实际案例的形式进行呈...

小编精选

扫码咨询

这篇文章把数据讲透了（四）：数据挖掘

小提示：您应该对本页介绍的“这篇文章把数据讲透了（四）：数据挖掘”相关内容感兴趣，若您有相关需求欢迎拨打我们的服务热线或留言咨询，我们尽快与您联系沟通这篇文章把数据讲透了（四）：数据挖掘的相关事宜。

关键词：1年, 初级, 数据挖掘,

关于 | 业务 | 案例 | 免责 | 隐私

客服邮箱：545321@QQ.com
电话：400-021-1330 | 客服QQ：545321
沪ICP备12034177号 | 沪公网安备31010702002418号