时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{工作中人们常提到的数据预处理,说的到底是什}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的工作中人们常提到的数据预处理,说的到底是什内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
在做数据分析时,我想许多数据分析师会像《R语言实战第二版》的作者卡巴科弗那样发出感叹:“数据分析师在数据预处理上花费了60%的时间……” 是的,我们所知道的建模,评估模型等数据分析工作所花费的时间远远没有数据预处理的多。这件网络营销系统哪个好事虽然麻烦多事但却“功在千秋”,如果在做数据分析时前期的数据预处理做的很好,那后面的步骤会说话的话,相信我,它们一定会感谢你的。这就跟减肥一样,过程艰难,但人家创造101的杨超越不也下定决心唱出一句:“燃烧我的卡路里,你是最棒的”嘛。 数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。 一、数网络推广有限公司首页据清洗数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。
1. 缺失值缺失值包括缺失值的识别和缺失值的处理。 在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。 缺失值处理常用的方法有:删除、替换和插补。
2. 异常值异常值跟缺失值一样包括异常值的识别和异常值的处理。
二、数据集成所谓数据集成就是将多个数据源合并放到一个数据存储中,当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。 数据集成的实现是将两个数据框以关键字为依据,在R里用merge()函数实现,语句为merge(dataframe1, dataframe2,by=”关键字“”),默认按升序排列。 在进行数据集成时可能会出现如下问题:
三、数据变换数据变换就是转化成适当的形式,来满足软件或分析理论的需要。 1. 简单函数变换简单函数变换用来将不具有正态分布的数据变成有正态分布的数据,常用的有平方、开方、取对数、差分等。如在时间序列里常对数据对数或差分运算,将非平稳序列转化成平稳序列。 2. 规范化规范化就是剔除掉变量量纲上的影响,比如:直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较。
3. 连续属性离散化将连续属性变量转化成分类属性,就是连续属性离散化,特别是某些分类算法要求数据是分类属性,如:ID3算法。 常用的离散化方法有如下几种:
四、数据规约数据规约能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。 1. 属性规约属性规约是寻找最小的属性子集并确定子集概率分布接近原来数据的概率分布。
2. 数值规约通过减少数据量,包括有参数和无参数方法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。
本文由 @CDA数据分析师 于。, 题图由作者提供 |
上一篇:需求分析 | 如何快速摸清一款数据分析产品的定
下一篇:在做用户研究时,大数据+小数据=?
小提示:您应该对本页介绍的“工作中人们常提到的数据预处理,说的到底是什”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通工作中人们常提到的数据预处理,说的到底是什的相关事宜。
关键词:2年, 初级, 数据预处理,