使用Amazon Kendra进行相关性调整

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:James Kingsmill网络

小提示:您能找到这篇{使用Amazon Kendra进行相关性调整}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的使用Amazon Kendra进行相关性调整内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!

< ">Amazon Kendra是基于机器学习(ML)的高度准确且易于使用的企业搜好的公司网站建设索服务。当您的用户开始使用Amazon Kendra执行搜索时,您可以微调他们收到的搜索结果。例如,您可能想要对来自某些数据源的结果进行优先级排序,这些数据源的活动会更主动,因此更具权威性。或者,如果您的用户经常搜索诸如季度报告之类的文档,则您可能希望首先显示最新的季度报告。

< ">相关性调整使您可以更改Amazon Kendra处理搜索结果中某些字段或属性的重要性的方式。在本文中,我们逐步介绍了如何手动调整索引以获得最佳结果。

< ">了解Amazon Kendra的三种主要响应类型非常重要:与FAQ匹配,阅读理解以提取建议的答案以及文档排名。相关性调整会影响文档排名。此外,相关性调整只是影响用户搜索结果的众多因素之一。您无法更改特定结果,但可以影响Amazon Kendra对某些字段或属性应用的权重。

< ">< font-size: 18px;">刻面

< ">由于您要基于字段进行调整,因此需要在索引中包含这些字段。例如,如果您想增强< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段的信号,则需要使< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段成为索引中可搜索的方面。

< ">< font-size: 18px;">执行相关性调整

< ">您可以通过几种不同的方式执行相关性调整,例如通过Amazon Kendra搜索控制台或通过Amazon Kendra API在AWS管理控制台上执行。调整时,您还可以使用几种不同类型的字段:

< ">日期字段–提高最新结果

< ">数字字段–根据数字字段(例如总观看次数)放大内容

< ">字符串字段–基于字符串字段提升结果,例如,标记为来自更权威数据源的结果

先决条件

< ">这篇文章要求您完成以下先决条件:设置环境,上载示例数据集并创建索引。

设置环境

< ">确保您已安装AWS CLI。打开一个终端窗口并创建一个新的工作目录。从该目录下载以下文件:

< ">样本数据集,可从以下网站获得:< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/ml-blogs.tar.gz

< ">用于创建索引的Python脚本,可从以下位置获得:< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/create-index.py

< ">以下屏幕截图显示了如何下载数据集和Python脚本。

上载数据集

< ">对于此用例,我们使用一个数据集,该数据集是AWS Machine Learning Blog中精选的帖子。如果要使用自己的数据集,请确保您具有各种元数据。理想情况下,您应该具有不同的字符串字段和日期字段。在示例数据集中,不同的字段包括:

< ">作者姓名–帖子作者

< ">内容类型–博客文章和白皮书

< ">主题和子主题–主要主题是< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Machine Learning,子主题包括< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Computer Vision和ML at the Edge

< ">内容语言–英语,日语和法语

< ">科学期刊中的引文数量-这些是该帖子的随机编造数字

< ">首先,创建两个Amazon Simple Storage Service(Amazon S3)存储桶。确保在与索引相同的区域中创建它们。我们的索引有两个数据源。

< ">在ml-blogs.tar.gz压缩文件中,有两个目录。解压缩tarball并将第一个目录'bucket1'的内容同步到第一个S3存储桶。然后将第二个目录“bucket2”的内容同步到第二个S3存储桶。

< ">以下屏幕截图显示了如何下载数据集并将其上传到S3存储桶。

< ">创建索引

< ">使用您喜欢的代码编辑器,打开您先前下载的Python脚本“create-index.py”。您将需要将存储桶名称变量设置为您先前创建的Amazon S3存储桶的名称。确保取消注释这些行。

< ">完成此操作后,通过键入运行脚本< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">python create-index.py。这将执行以下操作:

< ">创建一个AWS Identity and Access Management(IAM)角色以允许您的Amazon Kendra索引从Amazon S3读取数据并将日志写入Amazon CloudWatch Logs

< ">创建一个Amazon Kendra索引

< ">将两个Amazon S3数据源添加到索引

< ">向索引添加新构面,从而允许您基于数据集中的不同字段进行搜索

< ">启动数据源同步作业

< ">< font-size: 18px;">相关性调整

< ">既然我们的数据已正确索引并且元数据可以使用,我们就可以测试不同的设置以了解相关性调整如何影响搜索结果。在以下示例中,我们将基于几个不同的属性进行增强。这些包括数据源,文档类型,新鲜度和受欢迎程度。

< ">增强权威数据源

< ">我们关注的第一种调优是基于数据源的。也许您有一个数据源得到了很好的维护和整理,而另一个数据源则具有较不准确和过时的信息。您想对来自第一个数据源的结果进行优先排序,以便您的用户在执行搜索时获得最相关的结果。

< ">创建索引时,我们创建了两个数据源。其中一个包含我们所有的博客文章-这是我们的主要数据源。另一个仅包含一个文件,我们将其视为旧数据源。

< ">我们的索引创建脚本将字段设置< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">_data_source_id为可表面,可搜索和可显示。这是增强特定数据源的关键步骤。

< ">以下屏幕截图显示了我们的Amazon Kendra索引的索引字段。

< ">1.在Amazon Kendra搜索控制台上,搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。

< ">以下屏幕截图显示了搜索“Textract”的结果。

< ">结果中还应有一个名为的文件< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Test_File.txt。这是来自我们的次要,整理不太好的数据源的文件。记录此结果在搜索结果中的位置。我们想要取消优先级,然后从主要来源提高结果。

< ">2.选择“调优”以打开“相关性”调优

< ">3.在“文本”字段下,展开数据源。

< ">4.将第一个数据源的滑块拖到右侧,以增强该数据源的结果。对于这篇文章,我们首先将其设置为8。

< ">5.对进行另一次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。

< ">您应该发现来自第二个数据源的文件已经在搜索排名中下降了。

< ">将滑块一直拖动到最右边,以便将boost设置为10,然后再次执行搜索。

< ">您应该发现辅助数据源的结果已从搜索结果的第一页中消失。

< ">以下屏幕快照显示了相关性调整面板,其中数据源字段增强应用于一个数据源,并且搜索结果不包括来自辅助数据源的结果。

< ">尽管我们将这种方法与S3存储桶一起用作数据源,但是您可以使用它来对Amazon Kendra中可用的任何数据源进行优先级排序。您可以提高Amazon S3数据湖的结果,并取消Microsoft SharePoint系统的结果优先级,反之亦然。

< ">增强某些文档类型

< ">在此用例中,我们将白皮书的结果提高到了AWS Machine Learning Blog的结果之上。我们首先建立基线搜索结果。

< ">1.打开Amazon Kendra搜索控制台并搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">What is machine learning?

< ">以下屏幕截图显示了搜索“什么是机器学习?”的结果。

< ">我们如何影响Amazon Kendra将白皮书推向其搜索结果的顶部?

< ">首先,我们要根据内容< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type字段调整搜索结果。

< ">1.在Amazon Kendra控制台上打开“相关性”调整面板。

< ">2.在“自定义字段”下,展开“类型”。

< ">3.将“类型”字段增强滑块一直拖动到最右边,以将该字段的相关性设置为10。

< ">我们还想提高特定< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type值的重要性,即< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepapers。

< ">4.展开高级提升,然后选择增加价值。

< ">5.白皮书在我们的元数据中由该字段指示< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">“Type”:“Whitepaper”,因此请输入值< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepaper并将其设置为10。

< ">6.选择保存。

< ">以下屏幕截图显示了相关性调整面板,其中将类型字段增强应用于“白皮书”文档类型。

< ">等待最多10秒钟,然后重新运行搜索。



< ">以下屏幕截图显示了搜索“什么是机器学习?”的结果。使用类型字段增强的情况。

< ">7.将您的“类型”字段增强设置恢复为正常值。

< ">基于文档新鲜度提升

< ">您可能拥有跨越数十年的大型文档档案,但是最新的答案更为有用。例如,如果您的用户问:“IT服务台在哪里?”您想确保他们得到最新的答案。为此,您可以基于日期属性提高新鲜度。

< ">在这种用例中,我们提高了搜索结果的范围,以包括更多最新帖子。

< ">1.在Amazon Kendra搜索控制台上,搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。

< ">第一个结果是在2019年3月19日发布的Amazon Comprehend Medical和Amazon Rekognition的帮助下取消对医学图像的识别。

< ">以下屏幕截图显示了搜索“medical”的结果。

< ">2.再次打开“相关性”调整面板。

< ">3.在日期选项卡上,打开自定义字段。

< ">4.调整新鲜刺激的PublishDate10

< ">5.再次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。

< ">这次的第一个结果是通过2020年5月15日发布的Amazon Transcribe Medical提高了COVID-19相关术语的语音到文本的准确性。

< ">以下屏幕截图显示了应用了新鲜度增强的“医学”搜索结果。



< ">您还可以扩展高级增强功能以增强特定时间段内的结果。例如,如果发布季度业务结果,则可能需要将敏感度范围设置为最近3个月。这增加了上一季度发布的文档,因此用户更有可能找到它们。

< ">以下屏幕快照显示了相关性调整面板中与新鲜度提升有关的部分,其中显示了“灵敏度”滑块以捕获灵敏度范围。

< ">根据文档受欢迎程度进行提升

< ">最终方案是基于数值进行调整。在这种用例中,我们为每个帖子分配一个随机数,以表示他们在科学期刊中收到的引用次数。(重要的是要重申,这些只是随机数,而不是实际引用数!)我们希望显示最常引用的帖子。

< ">1.运行搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras,这是ML流行的库的名称。

< ">您可能会从Amazon Kendra看到一个建议的答案,但是最重要的结果(及其综合引用数)可能包括:

< ">Amazon SageMaker Keras–81次引用

< ">使用Amazon SageMaker部署受过训练的Keras或TensorFlow模型-引用57

< ">使用Amazon EC2竞价型实例在GPU上训练深度学习模型–引用68

< ">2.在相关调节面板,在上数字选项卡,拉动滑块引文一路10。

< ">3.选择“升序”可以增强引用次数更多的结果。

< ">以下屏幕快照显示了相关性数字营销咨询公司调整面板,其中数字增强功能应用于“引文”自定义字段。

< ">4.< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras再次搜索,看看出现了什么结果。

< ">搜索结果的顶部是:

< ">在Amazon SageMaker上使用TensorFlow和Apache MXNet训练和部署Keras模型-引用1,197

< ">在Amazon SageMaker脚本模式下使用TensorFlow急切执行-引用2,434

< ">Amazon Kendra通过更多引用优先考虑结果。

< ">< font-size: 18px;">结论

< ">这篇文章演示了如何使用相关性调整来调整用户的Amazon Kendra搜索结果。我们使用了一个小的合成数据集,以使您了解相关性调整的工作原理。实际数据集的复杂性要高得多,因此与用户合作以了解他们要优先考虑的搜索结果类型非常重要。通过相关性调整,您可以使用Amazon Kendra从企业搜索中获得最大价值!

< ">感谢Tapodipta Ghosh提供了示例数据集和技术审查。没有他的帮助,就不可能写这篇文章。

关于作者

James Kingsmill是澳大利亚公共部门团队的解决方案架构师。他长期致力于帮助公共部门客户实现其转型,自动化和安全目标。在他的业余时间,您会发现他在悉尼附近的蓝山山脉中溪降。

使用Amazon Kendra进行相关性调整

上一篇:速卖通联盟与TikTok 抖音国际版的引流变现方式
下一篇:给速卖通老卖家的分享


版权声明:以上主题为“使用Amazon Kendra进行相关性调整"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    使用Amazon Kendra进行相关性调整
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“使用Amazon Kendra进行相关性调整”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通使用Amazon Kendra进行相关性调整的相关事宜。

关键词:使用Amazon,Kendra进行相关性

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号