时间:2021-07-15 | 标签: | 作者:Q8 | 来源:James Kingsmill网络
小提示:您能找到这篇{使用Amazon Kendra进行相关性调整}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的使用Amazon Kendra进行相关性调整内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
< ">Amazon Kendra是基于机器学习(ML)的高度准确且易于使用的企业搜好的公司网站建设索服务。当您的用户开始使用Amazon Kendra执行搜索时,您可以微调他们收到的搜索结果。例如,您可能想要对来自某些数据源的结果进行优先级排序,这些数据源的活动会更主动,因此更具权威性。或者,如果您的用户经常搜索诸如季度报告之类的文档,则您可能希望首先显示最新的季度报告。 < ">相关性调整使您可以更改Amazon Kendra处理搜索结果中某些字段或属性的重要性的方式。在本文中,我们逐步介绍了如何手动调整索引以获得最佳结果。 < ">了解Amazon Kendra的三种主要响应类型非常重要:与FAQ匹配,阅读理解以提取建议的答案以及文档排名。相关性调整会影响文档排名。此外,相关性调整只是影响用户搜索结果的众多因素之一。您无法更改特定结果,但可以影响Amazon Kendra对某些字段或属性应用的权重。 < ">< font-size: 18px;">刻面 < ">由于您要基于字段进行调整,因此需要在索引中包含这些字段。例如,如果您想增强< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段的信号,则需要使< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段成为索引中可搜索的方面。 < ">< font-size: 18px;">执行相关性调整 < ">您可以通过几种不同的方式执行相关性调整,例如通过Amazon Kendra搜索控制台或通过Amazon Kendra API在AWS管理控制台上执行。调整时,您还可以使用几种不同类型的字段: < ">日期字段–提高最新结果 < ">数字字段–根据数字字段(例如总观看次数)放大内容 < ">字符串字段–基于字符串字段提升结果,例如,标记为来自更权威数据源的结果 先决条件 < ">这篇文章要求您完成以下先决条件:设置环境,上载示例数据集并创建索引。 设置环境 < ">确保您已安装AWS CLI。打开一个终端窗口并创建一个新的工作目录。从该目录下载以下文件: < ">样本数据集,可从以下网站获得:< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/ml-blogs.tar.gz < ">用于创建索引的Python脚本,可从以下位置获得:< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/create-index.py < ">以下屏幕截图显示了如何下载数据集和Python脚本。 上载数据集 < ">对于此用例,我们使用一个数据集,该数据集是AWS Machine Learning Blog中精选的帖子。如果要使用自己的数据集,请确保您具有各种元数据。理想情况下,您应该具有不同的字符串字段和日期字段。在示例数据集中,不同的字段包括: < ">作者姓名–帖子作者 < ">内容类型–博客文章和白皮书 < ">主题和子主题–主要主题是< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Machine Learning,子主题包括< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Computer Vision和ML at the Edge < ">内容语言–英语,日语和法语 < ">科学期刊中的引文数量-这些是该帖子的随机编造数字 < ">首先,创建两个Amazon Simple Storage Service(Amazon S3)存储桶。确保在与索引相同的区域中创建它们。我们的索引有两个数据源。 < ">在ml-blogs.tar.gz压缩文件中,有两个目录。解压缩tarball并将第一个目录'bucket1'的内容同步到第一个S3存储桶。然后将第二个目录“bucket2”的内容同步到第二个S3存储桶。 < ">以下屏幕截图显示了如何下载数据集并将其上传到S3存储桶。 < ">创建索引 < ">使用您喜欢的代码编辑器,打开您先前下载的Python脚本“create-index.py”。您将需要将存储桶名称变量设置为您先前创建的Amazon S3存储桶的名称。确保取消注释这些行。 < ">完成此操作后,通过键入运行脚本< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">python create-index.py。这将执行以下操作: < ">创建一个AWS Identity and Access Management(IAM)角色以允许您的Amazon Kendra索引从Amazon S3读取数据并将日志写入Amazon CloudWatch Logs < ">创建一个Amazon Kendra索引 < ">将两个Amazon S3数据源添加到索引 < ">向索引添加新构面,从而允许您基于数据集中的不同字段进行搜索 < ">启动数据源同步作业 < ">< font-size: 18px;">相关性调整 < ">既然我们的数据已正确索引并且元数据可以使用,我们就可以测试不同的设置以了解相关性调整如何影响搜索结果。在以下示例中,我们将基于几个不同的属性进行增强。这些包括数据源,文档类型,新鲜度和受欢迎程度。 < ">增强权威数据源 < ">我们关注的第一种调优是基于数据源的。也许您有一个数据源得到了很好的维护和整理,而另一个数据源则具有较不准确和过时的信息。您想对来自第一个数据源的结果进行优先排序,以便您的用户在执行搜索时获得最相关的结果。 < ">创建索引时,我们创建了两个数据源。其中一个包含我们所有的博客文章-这是我们的主要数据源。另一个仅包含一个文件,我们将其视为旧数据源。 < ">我们的索引创建脚本将字段设置< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">_data_source_id为可表面,可搜索和可显示。这是增强特定数据源的关键步骤。 < ">以下屏幕截图显示了我们的Amazon Kendra索引的索引字段。 < ">1.在Amazon Kendra搜索控制台上,搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。 < ">以下屏幕截图显示了搜索“Textract”的结果。 < ">结果中还应有一个名为的文件< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Test_File.txt。这是来自我们的次要,整理不太好的数据源的文件。记录此结果在搜索结果中的位置。我们想要取消优先级,然后从主要来源提高结果。 < ">2.选择“调优”以打开“相关性”调优 < ">3.在“文本”字段下,展开数据源。 < ">4.将第一个数据源的滑块拖到右侧,以增强该数据源的结果。对于这篇文章,我们首先将其设置为8。 < ">5.对进行另一次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。 < ">您应该发现来自第二个数据源的文件已经在搜索排名中下降了。 < ">将滑块一直拖动到最右边,以便将boost设置为10,然后再次执行搜索。 < ">您应该发现辅助数据源的结果已从搜索结果的第一页中消失。 < ">以下屏幕快照显示了相关性调整面板,其中数据源字段增强应用于一个数据源,并且搜索结果不包括来自辅助数据源的结果。 < ">尽管我们将这种方法与S3存储桶一起用作数据源,但是您可以使用它来对Amazon Kendra中可用的任何数据源进行优先级排序。您可以提高Amazon S3数据湖的结果,并取消Microsoft SharePoint系统的结果优先级,反之亦然。 < ">增强某些文档类型 < ">在此用例中,我们将白皮书的结果提高到了AWS Machine Learning Blog的结果之上。我们首先建立基线搜索结果。 < ">1.打开Amazon Kendra搜索控制台并搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">What is machine learning? < ">以下屏幕截图显示了搜索“什么是机器学习?”的结果。 < ">我们如何影响Amazon Kendra将白皮书推向其搜索结果的顶部? < ">首先,我们要根据内容< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type字段调整搜索结果。 < ">1.在Amazon Kendra控制台上打开“相关性”调整面板。 < ">2.在“自定义字段”下,展开“类型”。 < ">3.将“类型”字段增强滑块一直拖动到最右边,以将该字段的相关性设置为10。 < ">我们还想提高特定< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type值的重要性,即< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepapers。 < ">4.展开高级提升,然后选择增加价值。 < ">5.白皮书在我们的元数据中由该字段指示< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">“Type”:“Whitepaper”,因此请输入值< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepaper并将其设置为10。 < ">6.选择保存。 < ">以下屏幕截图显示了相关性调整面板,其中将类型字段增强应用于“白皮书”文档类型。 < ">等待最多10秒钟,然后重新运行搜索。 < ">以下屏幕截图显示了搜索“什么是机器学习?”的结果。使用类型字段增强的情况。 < ">7.将您的“类型”字段增强设置恢复为正常值。 < ">基于文档新鲜度提升 < ">您可能拥有跨越数十年的大型文档档案,但是最新的答案更为有用。例如,如果您的用户问:“IT服务台在哪里?”您想确保他们得到最新的答案。为此,您可以基于日期属性提高新鲜度。 < ">在这种用例中,我们提高了搜索结果的范围,以包括更多最新帖子。 < ">1.在Amazon Kendra搜索控制台上,搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。 < ">第一个结果是在2019年3月19日发布的Amazon Comprehend Medical和Amazon Rekognition的帮助下取消对医学图像的识别。 < ">以下屏幕截图显示了搜索“medical”的结果。 < ">2.再次打开“相关性”调整面板。 < ">3.在日期选项卡上,打开自定义字段。 < ">4.调整新鲜刺激的PublishDate至10。 < ">5.再次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。 < ">这次的第一个结果是通过2020年5月15日发布的Amazon Transcribe Medical提高了COVID-19相关术语的语音到文本的准确性。 < ">以下屏幕截图显示了应用了新鲜度增强的“医学”搜索结果。 < ">您还可以扩展高级增强功能以增强特定时间段内的结果。例如,如果发布季度业务结果,则可能需要将敏感度范围设置为最近3个月。这增加了上一季度发布的文档,因此用户更有可能找到它们。 < ">以下屏幕快照显示了相关性调整面板中与新鲜度提升有关的部分,其中显示了“灵敏度”滑块以捕获灵敏度范围。 < ">根据文档受欢迎程度进行提升 < ">最终方案是基于数值进行调整。在这种用例中,我们为每个帖子分配一个随机数,以表示他们在科学期刊中收到的引用次数。(重要的是要重申,这些只是随机数,而不是实际引用数!)我们希望显示最常引用的帖子。 < ">1.运行搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras,这是ML流行的库的名称。 < ">您可能会从Amazon Kendra看到一个建议的答案,但是最重要的结果(及其综合引用数)可能包括: < ">Amazon SageMaker Keras–81次引用 < ">使用Amazon SageMaker部署受过训练的Keras或TensorFlow模型-引用57 < ">使用Amazon EC2竞价型实例在GPU上训练深度学习模型–引用68 < ">2.在相关调节面板,在上数字选项卡,拉动滑块引文一路10。 < ">3.选择“升序”可以增强引用次数更多的结果。 < ">以下屏幕快照显示了相关性数字营销咨询公司调整面板,其中数字增强功能应用于“引文”自定义字段。 < ">4.< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras再次搜索,看看出现了什么结果。 < ">搜索结果的顶部是: < ">在Amazon SageMaker上使用TensorFlow和Apache MXNet训练和部署Keras模型-引用1,197 < ">在Amazon SageMaker脚本模式下使用TensorFlow急切执行-引用2,434 < ">Amazon Kendra通过更多引用优先考虑结果。 < ">< font-size: 18px;">结论 < ">这篇文章演示了如何使用相关性调整来调整用户的Amazon Kendra搜索结果。我们使用了一个小的合成数据集,以使您了解相关性调整的工作原理。实际数据集的复杂性要高得多,因此与用户合作以了解他们要优先考虑的搜索结果类型非常重要。通过相关性调整,您可以使用Amazon Kendra从企业搜索中获得最大价值! < ">感谢Tapodipta Ghosh提供了示例数据集和技术审查。没有他的帮助,就不可能写这篇文章。 关于作者 James Kingsmill是澳大利亚公共部门团队的解决方案架构师。他长期致力于帮助公共部门客户实现其转型,自动化和安全目标。在他的业余时间,您会发现他在悉尼附近的蓝山山脉中溪降。 |
上一篇:速卖通联盟与TikTok 抖音国际版的引流变现方式
下一篇:给速卖通老卖家的分享
基于对传统行业渠道的理解,对互联网行业的渠道我们可以下这样一个定义:一切...
小米应用商店的后台操作和苹果是比较相似的,因为都能填写100字符关键词,允许...
小米的规则目前是在变更中的,但是根据经验小米的搜索排名评分的高低是个很重...
为了恰饭,有时候是要接入一些广告的,所以FB也专门有一个广告的SDK,这就是A...
在 2018 年于旧金山举行的游戏开发者大会上,Amazon Web Services (AWS) 曾宣布,目前世...
关于Facebook Audience Network如何收款的问题,其实官方已经给了详细的步骤。本文主要...
本文介绍了Audience Network对广告载体的质量检查,以及它重点广告形式需要注意的问...
随着iOS开发,作为开发者或公司需要针对iOS App开发涉及的方方面面作出对应的信息...
Facebook和谷歌对出海企业广告渠道都很熟悉,但事实上,在国外还有一些渠道也很...
卖家从做号的第1分钟开始,就一定要想好变现路径是什么?一定要以变现为目的去...
小提示:您应该对本页介绍的“使用Amazon Kendra进行相关性调整”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通使用Amazon Kendra进行相关性调整的相关事宜。
关键词:使用Amazon,Kendra进行相关性