时间:2021-07-15 | 标签: | 作者:Q8 | 来源:Julien Simon网络
小提示:您能找到这篇{推出Amazon SageMaker Data Wrangler,一个为机器学习准}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的推出Amazon SageMaker Data Wrangler,一个为机器学习准内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
< ">今天,我非常高兴地宣布推出Amazon SageMaker Data Wrangler,一项Amazon SageMaker的新功能,它使数据科学家和工程师能够使用可视化界面更快地为机器学习(ML)应用程序准备数据。 < ">每当我问一群数据科学家和机器学习工程师,他们实际花了多少时间来研究机器学习问题时,我经常会听到集体叹息,然后是“如果我们幸运的话,20%”。当我问他们为什么时,答案总是一样的,“数据准备一直占用我们80%的时间!” < ">事实上,为培训准备数据是机器学习过程的关键步骤,没有人会想着把它搞砸。典型任务包括: < ">定位数据:查找原始数据的存储位置并获取对它的访问权限 < ">数据可视化:检查数据集中每列的统计属性、构建直方图、研究异常值 < ">数据清理:删除重复项、删除或填充缺少值的条目、删除异常值 < ">数据丰富和特征工程:处理列以构建更具表现力的功能,选择功能子集进行培训 < ">在新机器学习项目的早期阶段,这是一个高度手动的过程,直觉和经验在其中发挥着很大作用。数据科学家通常混合使用定制工具和开源工具(如pandas或PySpark),对不同的数据转换组合进行试验,并在培训模型之前使用它们来处理数据集。然后,他们分析预测结果并进行迭代。尽管这一点很重要,但一次又一次地循环这个过程可能非常耗时、繁琐且容易出错。 < ">在某些时候,您将达到适当的准确度级别(或您选择的任何其他指标),然后您会希望在生产环境中的完整数据集上进行培训。但是,您首先必须重现并自动执行在沙箱中尝试的准确数据准备步骤。遗憾的是,鉴于这项工作的交互性质,即使您仔细记录它,总是难免会出错。 < ">最后,在进入终点线之前,您必须管理和扩展数据处理基础设施。现在我想起来了,您用80%的时间可能不足以完成所有这些! 推出Amazon SageMaker Data Wrangler < ">Amazon SageMaker Data Wrangler集成在Amazon SageMaker Studio中,这是我们面向机器学习的完全托管的集成开发环境(IDE)。只需单击几下,您就可以连接到数据源、探索和可视化数据、应用内置转换以及自己的转换、将生成的代码导出到自动生成的脚本中,然后在托管基础设施上运行。让我们更详细地了解每一步。 < ">显然,数据准备始于查找和访问数据。SageMaker Data Wrangler开箱即用,让您可以轻松快速地连接到Amazon Simple Storage Service(S3)、Amazon Athena、Amazon Redshift和AWS Lake Formation。您还可以从Amazon SageMaker功能库导入数据。与所有AWS一样,访问管理受AWS Identity and Access Management(IAM)的限制,该管理基于附加到您的SageMaker Studio实例的权限。 < ">连接到数据源后,您可能希望将数据可视化。使用SageMaker Data Wrangler用户界面,您可以在几秒钟内查看表摘要、直方图和散点图。您还可以通过简单地复制和运行使用流行的Altair开源库编写的代码来构建自己的自定义图表。 < ">一旦您很好地掌握了数据的外观,就是时候开始准备它了。SageMaker Data Wrangler包含300多种内置转换,例如查找和替换数据、拆分/重命名/删除列、缩放数值、编码类别值等。您所要做的就是在下拉列表中选择转换,然后填写它可能需要的参数。然后,您可以预览更改,并决定是否要将其添加到此数据集的准备步骤列表中。如果您愿意,还可以使用pandas、PySpark或PySpark SQL添加自己的代码来实现自定义转换。 < ">向处理管道添加转换步骤时,您可以在SageMaker Studio中查看其图形摘要。您还可以向管道添加新阶段,例如新的数据源或另一组转换步骤(例如,数据清理组,然后是特征工程组)。得益于直观的用户界面,您的数据准备管道将在眼前形成,您将能够立即检查处理过的数据的外观。 < ">早期,您肯定很乐意检查自己的数据准备步骤,并了解它们的预测能力,不是吗?那么,有好消息!对于回归和分类问题类型,“快速模型”功能允许您选择数据的子集、培训模型以及确定哪些功能对预测结果的数字营销转型贡献最大。查看模型,您可以尽早轻松诊断和修复数据准备问题,并确定是否需要额外的特征工程来提高模型性能。 < ">一旦您对自己的管道感到满意,就可以一键将其导出到Python脚本中,以忠实地重现您的手动步骤。您不会浪费任何时间追逐差异,并可以直接将此代码添加到机器学习项目中。 < ">此外,您还可以将处理代码导出到: < ">作为Amazon SageMaker处理作业运行它的笔记本电脑。 < ">作为Amazon SageMaker管道工作流运行它的笔记本电脑。 < ">将处理过的功能推送到Amazon SageMaker功能库的笔记本电脑。 < ">现在,让我们做一个快速演示,向您展示使用SageMaker Data Wrangler是多么容易。 使用Amazon SageMaker Data Wrangler < ">在打开SageMaker Studio时,我创建了一个新的数据流来处理Titanic数据集,其中包含乘客的信息,以及显示他们是否在灾难中幸存下来的标签。 < ">我的数据集作为CSV文件存储在Amazon Simple Storage Servicnetweb开发e(S3)中,然后我选择适当的数据源。 < ">使用内置工具,我可以快速浏览S3存储桶,并找到腾讯dns包含我的数据的CSV文件。对于较大的数据集,SageMaker Data Wrangler还支持Parquet格式。 < ">当我选择文件时,SageMaker Data Wrangler向我展示前几行。 < ">我导入了数据集,然后看到数据流的初始视图。右键单击数据集,我选择“Edit data types”(编辑数据类型),以确保SageMaker Data Wrangler已正确检测到数据集中每列的类型。 < ">检查每一列,看起来所有类型都是正确的。 < ">回到数据流视图,这次我选择“Add analysis”(添加分析)。这将打开一个新视图,我可以在其中使用直方图、散点图等可视化数据。例如,我创建一个直方图,根据乘客的生存状态显示乘客的年龄分布,并使用他们的性别为统计堆着色。当然,我可以保存它以备将来使用。 < ">再次移回到数据流视图,我选择“Add transform”(添加转换)以开始处理数据集。这将打开一个新视图,向我显示数据集的第一行以及300多个内置转换的列表。 < ">Pclass乘客等级是一个类别变量,我决定用一热编码对其进行编码。这将创建3个代表不同维度的新列,我可以预览它们。由于这正是我想要的,所以我应用了这种转换。同样,我将同样的转换应用于性别列。 < ">然后,我删除原来的Pclass列。使用相同的转换,我还可以删除名称列。 < ">为了快速了解这些变换是增加还是降低模型的准确性,我可以创建一个分析来现场培训模型。由于我的问题是二进制分类问题,SageMaker Data Wrangler使用称为F1分数的指标。0.749是一个很好的开始,额外的处理肯定会改善它。我还可以看到哪些功能对预测结果的贡献最大:性别、年龄和三等舱乘客。 < ">然后,转到“Export”(导出)视图,我选择迄今为止创建的所有转换,以便将它们添加到我的机器学习项目中。 < ">在这里,我选择“Python代码”来生成Python脚本。其他选项可用于Amazon SageMaker处理、Amazon SageMaker管道和Amazon SageMaker功能库.。 < ">几秒钟后,该脚本可用。我可以按原样将其添加到我的机器学习项目中,请放心,我的数据准备步骤将与上面创建的交互式转换保持一致。 开始使用 < ">正如您所看到的,Amazon SageMaker Data Wrangler让您在将数据准备步骤转换为可立即用于实验和生产的代码之前,以交互方式轻松处理数据准备步骤。 < ">您现在就可以在提供SageMaker Studio的所有可用区域开始使用此功能。 < ">立即试用,并向我们提供反馈。我们始终期待您的反馈,您可通过一贯的AWS Support联系人向我们提供反馈,也可在针对SageMaker在AWS论坛上提出反馈。 < ">–Julien < ">特别感谢我的同事Peter Liu在早期测试期间的宝贵帮助。 |
上一篇:SaaS与SDK商业化的Points整理
下一篇:破51项纪录的背后:华为云擎天架构调度求解引擎
基于对传统行业渠道的理解,对互联网行业的渠道我们可以下这样一个定义:一切...
小米应用商店的后台操作和苹果是比较相似的,因为都能填写100字符关键词,允许...
小米的规则目前是在变更中的,但是根据经验小米的搜索排名评分的高低是个很重...
为了恰饭,有时候是要接入一些广告的,所以FB也专门有一个广告的SDK,这就是A...
在 2018 年于旧金山举行的游戏开发者大会上,Amazon Web Services (AWS) 曾宣布,目前世...
关于Facebook Audience Network如何收款的问题,其实官方已经给了详细的步骤。本文主要...
本文介绍了Audience Network对广告载体的质量检查,以及它重点广告形式需要注意的问...
随着iOS开发,作为开发者或公司需要针对iOS App开发涉及的方方面面作出对应的信息...
Facebook和谷歌对出海企业广告渠道都很熟悉,但事实上,在国外还有一些渠道也很...
卖家从做号的第1分钟开始,就一定要想好变现路径是什么?一定要以变现为目的去...
小提示:您应该对本页介绍的“推出Amazon SageMaker Data Wrangler,一个为机器学习准”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通推出Amazon SageMaker Data Wrangler,一个为机器学习准的相关事宜。
关键词:推出Amazon,SageMaker,Data,Wra