使用Amazon Kendra进行相关性调整

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:James Kingsmill网络

小提示：您能找到这篇{使用Amazon Kendra进行相关性调整}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的使用Amazon Kendra进行相关性调整内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

< ">Amazon Kendra是基于机器学习（ML）的高度准确且易于使用的企业搜好的公司网站建设索服务。当您的用户开始使用Amazon Kendra执行搜索时，您可以微调他们收到的搜索结果。例如，您可能想要对来自某些数据源的结果进行优先级排序，这些数据源的活动会更主动，因此更具权威性。或者，如果您的用户经常搜索诸如季度报告之类的文档，则您可能希望首先显示最新的季度报告。

< ">相关性调整使您可以更改Amazon Kendra处理搜索结果中某些字段或属性的重要性的方式。在本文中，我们逐步介绍了如何手动调整索引以获得最佳结果。

< ">了解Amazon Kendra的三种主要响应类型非常重要：与FAQ匹配，阅读理解以提取建议的答案以及文档排名。相关性调整会影响文档排名。此外，相关性调整只是影响用户搜索结果的众多因素之一。您无法更改特定结果，但可以影响Amazon Kendra对某些字段或属性应用的权重。

< ">< font-size: 18px;">刻面

< ">由于您要基于字段进行调整，因此需要在索引中包含这些字段。例如，如果您想增强< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段的信号，则需要使< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">author字段成为索引中可搜索的方面。

< ">< font-size: 18px;">执行相关性调整

< ">您可以通过几种不同的方式执行相关性调整，例如通过Amazon Kendra搜索控制台或通过Amazon Kendra API在AWS管理控制台上执行。调整时，您还可以使用几种不同类型的字段：

< ">日期字段–提高最新结果

< ">数字字段–根据数字字段（例如总观看次数）放大内容

< ">字符串字段–基于字符串字段提升结果，例如，标记为来自更权威数据源的结果

先决条件

< ">这篇文章要求您完成以下先决条件：设置环境，上载示例数据集并创建索引。

设置环境

< ">确保您已安装AWS CLI。打开一个终端窗口并创建一个新的工作目录。从该目录下载以下文件：

< ">样本数据集，可从以下网站获得：< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/ml-blogs.tar.gz

< ">用于创建索引的Python脚本，可从以下位置获得：< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">s3://aws-ml-blog/artifacts/kendra-relevance-tuning/create-index.py

< ">以下屏幕截图显示了如何下载数据集和Python脚本。

上载数据集

< ">对于此用例，我们使用一个数据集，该数据集是AWS Machine Learning Blog中精选的帖子。如果要使用自己的数据集，请确保您具有各种元数据。理想情况下，您应该具有不同的字符串字段和日期字段。在示例数据集中，不同的字段包括：

< ">作者姓名–帖子作者

< ">内容类型–博客文章和白皮书

< ">主题和子主题–主要主题是< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Machine Learning，子主题包括< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Computer Vision和ML at the Edge

< ">内容语言–英语，日语和法语

< ">科学期刊中的引文数量-这些是该帖子的随机编造数字

< ">首先，创建两个Amazon Simple Storage Service（Amazon S3）存储桶。确保在与索引相同的区域中创建它们。我们的索引有两个数据源。

< ">在ml-blogs.tar.gz压缩文件中，有两个目录。解压缩tarball并将第一个目录'bucket1'的内容同步到第一个S3存储桶。然后将第二个目录“bucket2”的内容同步到第二个S3存储桶。

< ">以下屏幕截图显示了如何下载数据集并将其上传到S3存储桶。

< ">创建索引

< ">使用您喜欢的代码编辑器，打开您先前下载的Python脚本“create-index.py”。您将需要将存储桶名称变量设置为您先前创建的Amazon S3存储桶的名称。确保取消注释这些行。

< ">完成此操作后，通过键入运行脚本< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">python create-index.py。这将执行以下操作：

< ">创建一个AWS Identity and Access Management（IAM）角色以允许您的Amazon Kendra索引从Amazon S3读取数据并将日志写入Amazon CloudWatch Logs

< ">创建一个Amazon Kendra索引

< ">将两个Amazon S3数据源添加到索引

< ">向索引添加新构面，从而允许您基于数据集中的不同字段进行搜索

< ">启动数据源同步作业

< ">< font-size: 18px;">相关性调整

< ">既然我们的数据已正确索引并且元数据可以使用，我们就可以测试不同的设置以了解相关性调整如何影响搜索结果。在以下示例中，我们将基于几个不同的属性进行增强。这些包括数据源，文档类型，新鲜度和受欢迎程度。

< ">增强权威数据源

< ">我们关注的第一种调优是基于数据源的。也许您有一个数据源得到了很好的维护和整理，而另一个数据源则具有较不准确和过时的信息。您想对来自第一个数据源的结果进行优先排序，以便您的用户在执行搜索时获得最相关的结果。

< ">创建索引时，我们创建了两个数据源。其中一个包含我们所有的博客文章-这是我们的主要数据源。另一个仅包含一个文件，我们将其视为旧数据源。

< ">我们的索引创建脚本将字段设置< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">_data_source_id为可表面，可搜索和可显示。这是增强特定数据源的关键步骤。

< ">以下屏幕截图显示了我们的Amazon Kendra索引的索引字段。

< ">1.在Amazon Kendra搜索控制台上，搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。

< ">以下屏幕截图显示了搜索“Textract”的结果。

< ">结果中还应有一个名为的文件< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Test_File.txt。这是来自我们的次要，整理不太好的数据源的文件。记录此结果在搜索结果中的位置。我们想要取消优先级，然后从主要来源提高结果。

< ">2.选择“调优”以打开“相关性”调优

< ">3.在“文本”字段下，展开数据源。

< ">4.将第一个数据源的滑块拖到右侧，以增强该数据源的结果。对于这篇文章，我们首先将其设置为8。

< ">5.对进行另一次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Textract。

< ">您应该发现来自第二个数据源的文件已经在搜索排名中下降了。

< ">将滑块一直拖动到最右边，以便将boost设置为10，然后再次执行搜索。

< ">您应该发现辅助数据源的结果已从搜索结果的第一页中消失。

< ">以下屏幕快照显示了相关性调整面板，其中数据源字段增强应用于一个数据源，并且搜索结果不包括来自辅助数据源的结果。

< ">尽管我们将这种方法与S3存储桶一起用作数据源，但是您可以使用它来对Amazon Kendra中可用的任何数据源进行优先级排序。您可以提高Amazon S3数据湖的结果，并取消Microsoft SharePoint系统的结果优先级，反之亦然。

< ">增强某些文档类型

< ">在此用例中，我们将白皮书的结果提高到了AWS Machine Learning Blog的结果之上。我们首先建立基线搜索结果。

< ">1.打开Amazon Kendra搜索控制台并搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">What is machine learning?

< ">以下屏幕截图显示了搜索“什么是机器学习？”的结果。

< ">我们如何影响Amazon Kendra将白皮书推向其搜索结果的顶部？

< ">首先，我们要根据内容< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type字段调整搜索结果。

< ">1.在Amazon Kendra控制台上打开“相关性”调整面板。

< ">2.在“自定义字段”下，展开“类型”。

< ">3.将“类型”字段增强滑块一直拖动到最右边，以将该字段的相关性设置为10。

< ">我们还想提高特定< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Type值的重要性，即< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepapers。

< ">4.展开高级提升，然后选择增加价值。

< ">5.白皮书在我们的元数据中由该字段指示< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">“Type”:“Whitepaper”，因此请输入值< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">Whitepaper并将其设置为10。

< ">6.选择保存。

< ">以下屏幕截图显示了相关性调整面板，其中将类型字段增强应用于“白皮书”文档类型。

< ">等待最多10秒钟，然后重新运行搜索。

< ">以下屏幕截图显示了搜索“什么是机器学习？”的结果。使用类型字段增强的情况。

< ">7.将您的“类型”字段增强设置恢复为正常值。

< ">基于文档新鲜度提升

< ">您可能拥有跨越数十年的大型文档档案，但是最新的答案更为有用。例如，如果您的用户问：“IT服务台在哪里？”您想确保他们得到最新的答案。为此，您可以基于日期属性提高新鲜度。

< ">在这种用例中，我们提高了搜索结果的范围，以包括更多最新帖子。

< ">1.在Amazon Kendra搜索控制台上，搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。

< ">第一个结果是在2019年3月19日发布的Amazon Comprehend Medical和Amazon Rekognition的帮助下取消对医学图像的识别。

< ">以下屏幕截图显示了搜索“medical”的结果。

< ">2.再次打开“相关性”调整面板。

< ">3.在日期选项卡上，打开自定义字段。

< ">4.调整新鲜刺激的PublishDate至10。

< ">5.再次搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">medical。

< ">这次的第一个结果是通过2020年5月15日发布的Amazon Transcribe Medical提高了COVID-19相关术语的语音到文本的准确性。

< ">以下屏幕截图显示了应用了新鲜度增强的“医学”搜索结果。

< ">您还可以扩展高级增强功能以增强特定时间段内的结果。例如，如果发布季度业务结果，则可能需要将敏感度范围设置为最近3个月。这增加了上一季度发布的文档，因此用户更有可能找到它们。

< ">以下屏幕快照显示了相关性调整面板中与新鲜度提升有关的部分，其中显示了“灵敏度”滑块以捕获灵敏度范围。

< ">根据文档受欢迎程度进行提升

< ">最终方案是基于数值进行调整。在这种用例中，我们为每个帖子分配一个随机数，以表示他们在科学期刊中收到的引用次数。（重要的是要重申，这些只是随机数，而不是实际引用数！）我们希望显示最常引用的帖子。

< ">1.运行搜索< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras，这是ML流行的库的名称。

< ">您可能会从Amazon Kendra看到一个建议的答案，但是最重要的结果（及其综合引用数）可能包括：

< ">Amazon SageMaker Keras–81次引用

< ">使用Amazon SageMaker部署受过训练的Keras或TensorFlow模型-引用57

< ">使用Amazon EC2竞价型实例在GPU上训练深度学习模型–引用68

< ">2.在相关调节面板，在上数字选项卡，拉动滑块引文一路10。

< ">3.选择“升序”可以增强引用次数更多的结果。

< ">以下屏幕快照显示了相关性数字营销咨询公司调整面板，其中数字增强功能应用于“引文”自定义字段。

< ">4.< color: rgb(192, 80, 77); background-color: rgb(242, 242, 242);">keras再次搜索，看看出现了什么结果。

< ">搜索结果的顶部是：

< ">在Amazon SageMaker上使用TensorFlow和Apache MXNet训练和部署Keras模型-引用1,197

< ">在Amazon SageMaker脚本模式下使用TensorFlow急切执行-引用2,434

< ">Amazon Kendra通过更多引用优先考虑结果。

< ">< font-size: 18px;">结论

< ">这篇文章演示了如何使用相关性调整来调整用户的Amazon Kendra搜索结果。我们使用了一个小的合成数据集，以使您了解相关性调整的工作原理。实际数据集的复杂性要高得多，因此与用户合作以了解他们要优先考虑的搜索结果类型非常重要。通过相关性调整，您可以使用Amazon Kendra从企业搜索中获得最大价值！

< ">感谢Tapodipta Ghosh提供了示例数据集和技术审查。没有他的帮助，就不可能写这篇文章。

关于作者

James Kingsmill是澳大利亚公共部门团队的解决方案架构师。他长期致力于帮助公共部门客户实现其转型，自动化和安全目标。在他的业余时间，您会发现他在悉尼附近的蓝山山脉中溪降。

上一篇：速卖通联盟与TikTok 抖音国际版的引流变现方式
下一篇：给速卖通老卖家的分享