Pinterest的视觉搜索

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:李粒网络

小提示：您能找到这篇{Pinterest的视觉搜索}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的Pinterest的视觉搜索内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

< ">阅读背景：

< ">为了发展目前项目的视觉搜索模块，对Pinterest的Visual Search进行研究；

< ">笔者非CS／math相关出生，对于CNN与ML为初学者，若有不当之处，请各位读者指出斧正。

< ">文献总结：

< ">1.利用一些便于使用的分布式计算平台，比如Amazon Web Services和开源工具，少量研发人员也可以使用非专有工具组合构建大规模视觉搜索系统；

< ">2.利用递增特征更新（Incremental Fingerprinting Service）和两步式目标检测和定位（Two-step Object Detection and Localization），能够有效提高搜索的准确性，并且降低研发和部署的成本；

< ">3.视觉搜索特征在图片推荐系统中，能够有效提高推荐的准确度；

< ">1.介绍

< ">视觉搜索，又称基于内容的图像检索，是最近的热门研究领域。这个领域主要由爆炸性增长的在线图片和搜索引擎的流行所驱动。其中，Google Goggles（Google的照相搜索App）、Google Similar Images（Google的相似图片搜索）和Amazon Flow（Amazon的增强现实购物应用）是几个商业化视觉搜索系统中较为成功的案例。虽然在构建网络规模的视觉搜索系统上已经取得了重要的进展，但是很少有文章来介绍这些商业案例中，如何部署端对端（end-to-end）的框架。这其中的原因，一部分是因为真实的视觉搜索系统的复杂性，另一部分是因为大公司的商业考虑——对核心搜索技术的保密。

图1：Similar Looks：我们应用目标检测技术来定位产品，比如包和西子。在这个原型中，用户点击自动标记的目标来查看视觉相似的产品。

< ">在Pinterest上部署一个商业化搜索引擎，我们面临着两个主要挑战。

< ">作为一个小公司，我们需要控制人力和计算资源的开发成本。比如，当你想要处理一个巨大、连续增长的图片集合时，特征计算将会变得很昂贵。并且，当工程师不断的试验新特征去部署系统时，可扩展性和合理花费就变成至关重要。

< ">作为一个商业应用，评判成功的标准是它带给用户的效益（比如，提高了用户的参与度）和它自身的研发、维护成本。

< ">因此在最后，我们所研发的搜索引擎将需要通过A/B tests接受真实用户的高频度测试。

< ">这篇文章将介绍，我们如何面对前面两个挑战，并去发布、部署一个商业视觉搜索系统。我们做了两个主要的成果。

< ">成果一，在研发视觉搜索时，我们通过使用广泛使用的工具来实现可拓展性和控制成本。这些工具可以帮助一个小工程师团队去实现自己的想法。Section 2.1介绍我们简单、务实的方法来加速和提高目标检测和定位的准确性。这个方法在Pinterest中开发了丰富的可用的大数据资源。我们使用了一个巧的方法来减弱任务难度（和计算花费）。

< "> 首先，事先将目标进行检测，确定到一个多类别的分类中；

< "> 然后，我们只需要计算（昂贵的）高精准度的图像目标检测。

< ">Section 2.2介绍我们在最好的广泛利用的工具中，建立分布式索引和搜索基础。

< ">成果二，把我们部署的视觉搜索基础的成果利用在了两个产品应用中：Related Pins和Similar Looks。在每个应用中，我们使用应用特有的数据集来评估每个独立视觉搜索模块（目标检测，相似性的特征表示）的有效性。在部署端对端系统后，我们使用A/B tests来检测现实中用户的参与度。

图2：Related Pins是一个产品特征，基于Pinterest的现有图片展示推荐内容。

< ">Related Pins（图2）可以基于用户正在浏览的Pins来推荐Pins。这些推荐主要来自于用户、Borads和Pins的“策展图”。但是，那些长尾的较少被翻阅的图片却没有推荐。利用视觉搜索，我们为Pinterest上的几乎所有图片都创建了推荐。

< ">第二个应用，Similar Looks（图1）是在测试时，特别是测试时尚Pins时发现的经验。它可以允许用户对图片内感兴趣的区域（比如，一个包，或一双鞋）进行一个视觉查询，然后为用户辨别出一个视觉相似的Pins。与传统视觉搜索不同的是，Similar Looks不再使用一个完整的图片，这里的视觉相似性是通过查询中的局部目标和数据库中的图片对比来进行计算的。据我们所知，这是第一篇商业化视觉搜索系统中利用目标检测和定位的文献。

< ">我们的经验表明：

< ">利用大数据的目标检测和定位方法，可以达到一个可观的检测率和极小的误报率（不大于1%）；

< ">利用来自VGG模型的特征表达极大地提升了在Pinterest基准数据库的视觉搜索准确性；

< ">当使用视觉搜索来增强Related Pins和Similar Looks应用时，我们观察到用户参与度巨大的增加。

< ">2.Pinterest的视觉搜索结构

< ">Pinterest是一个视觉标签工具来帮助用户发现和储存创意。用户pin图片到Borads中，这一过程对一个特定的主题或话题创建了集合。这个「用户—Borads—图片」图谱包含丰富的关于图片和它们语义关系的信息。比如当一个图片被Pin到一个Borad中，表明在这个新borad和其他所有包含这个图片的board有一个“策展联系”。通过这些描述图片、图片的borad和其用户的联系，相关的大数据（比如，图片的注释）能够不断增长。

< ">因为图片是每个Pin的焦点，所以视觉特征在为用户发现兴趣，灵感和相关内容上起到了非常重要的作用。在这一章中，我们介绍如何端对端执行一个视觉搜索系统，来检索Pinterest中的数十亿图片。我们致力于研发真实视觉搜索系统的挑战——如何平衡经费限制和快速实现的需要。

< ">我们将要介绍：

< ">从图片中抽取的特征；

< ">为了分布式和增量式特征提取物所搭建的基础；

< ">实时视觉搜索服务；

< ">2.1.图像的表现及特征

< ">我们从图片中抽取不同类型的特征，包括：位置特征和“深度特征”（深度特征从深度卷积神经网络（CNNs）的活性中间层中提取）。我们研究基于AlexNet和VGG的结构，来提取fc6和fc8层的特征表现。这些特征为了有效地表现被二值化，并且用汉明距离（Hamming Distance）进行比较。我们使用开源的Caffe架构，在多GPU机器上来训练和推算我们的CNNs。

< ">这套系统也被用来从图像中抽取显著图片颜色。显著颜色是由图像内的第一检测的显著区域计算而来，然后应用k均值聚类法来计算显著像素的实验室像素值，其中，聚类中心和权值被储存为图像的颜色特征。

< ">两步式目标检测和定位

< ">与Pinterest的特别相关的特征是有确切目标分类的存在，比如，包，鞋子，手表，礼服，和太阳镜。我们考虑到在Pinterest图片中有海量的短文本标签，而采取两步式检测过程。当图片被多次pin到不同的borad中，pin的总体描述和borad的标题提供了大量关于图片的信息。在Pinterest中，文本处理通道从原始文本中为图像抽取了相关的注释，产生了与每个图像有关的短文本。

图3：并不是运用所有的目标识别探测模型来识别所有的图像，我们第一步会先用文本元数据来预测图像分类，然后运用对应的目标检测模型来识别图像。

< ">我们利用这些注释来确定运行哪一个目标检测器。在图1中，我们首先确定这个图像可能是包含包和鞋子，然后继续用图像目标检测器来检测这些目标种类。经过第一步的目标预分类，我们只需要在图像上运行一个最可能吻合的目标检测器。这个过滤步骤减小了大量的计算成本，降低了误报率。

< ">我们对目标检测的最初方法是对基于级联的可变形部分模型（cascading deformable part-based models）的大量优化来实现。这个检测器为每个被检测到的目标输出一个有边界的盒，并从中提取目标的可视化描述。我们最近的工作主要集中在研究基于深度学习的目标探测器的可行性和性能。

< ">我们试验结果在section 4，表明了我们的系统达到了非常低的误报率（小于1%），这在我们的应用中是必不可少的。这个两步式方法也让我们能并入其他信号到分类中。这种在目标检测和定位时利用文本和视觉信号的方法已经被广泛运用在Web图像检索和分类中。

< ">点击预测

< ">当用户在Pinterest上浏览，他们能通过点击放大到全屏（“close-up”，特写）和随后点击来到内容的站外来源（a click-through，点击通过）来与一个Pin交互。对于每个图像，我们基于它的视觉特征来预测被打开全屏的概率（CUR）和被点击到站外来源的概率（CTR）。我们训练一个CNN来从图像中学习一个概率映射，关于一个用户打开图片全屏和到达站外来源的概率。CUR和CTR对于应用，比如搜索排序，推荐系统和广告投放都是有用的，在这些应用中我们经常需要知道哪一张图像更能获取用户的注意力。

< ">CNNs最近成为许多语义预测任务，在涉及视觉输入（包括分类、检测与分割）时的主要方法。训练一个完整的CNN来获取一个好的结果将会是非常耗时间，也需要非常大量的数据。我们将转移学习应用到我们的模型中，通过保留来自其他计算视觉任务训练的模型的低层次的视觉表现。网络的顶层为我们现在的具体任务进行了细致的调整。这样节省了大量的训练时间，并且利用了更大的库中学习到的视觉特征，而不仅仅只是这次任务。我们使用Caffe来进行这个迁移学习。

图4：对于CUR预测（左）和CTR预测（右）的ROC曲线。

< ">图4描述了我们基于CNN方法的接受者操作特征（ROC）曲线和一个基于“传统”计算机视觉途径的基线的对比：一个在词的金字塔直方图（PHOW）中被二值标签训练的支持向量机（SVM），在目标识别数据集（如，Caltech-101）中表现的很好。我们的基于CNN的方法优于基于PHOW的基线，从端对端微调CNN也带来了显著的性能提升。类似的方法也适用于检测上传到Pinterest的色情图像的任务。

< ">2.2.指纹增量服务

< ">我们大多数的视觉应用依靠于拥有一个完整的视觉特征集合，这个集合以适合于批量处理的格式存储。保持这个数据的更新是具有挑战性的，因为我们的集合包含超过十亿独特的图像，增量地更新特性集是至关重要的，并且尽可能避免不必要的重新计算。

< ">我们建立了一个系统，叫做指纹增量服务，这个服务为Pinterest所有的图像计算特征，通过使用在Amazon EC2上的工作群。它主要在两个场景下逐步更新特征集合：

< ">上传到Pinterest上的新图片

< ">特征迭代（工程师增加／修改特征）

< ">我们的方法是将图片集划分到由上传时间确定的时代（epochs）组中，并且为每个特性类型（全面的，本地的，深度特征）的每个版本维护一个单独的特性存储区。这些特征类型被大量存贮在Amazon S3，以特征种类，版本，时间来组织管理。当数据完全更新时，每一个特征存储都会包含所有的时代组。在每一次运算中，系统发现每个特征的缺失时代组，并且把排队工作变成一种分布式队列来填充那些时代组。

< ">这种存储策略能够如流水一般递增升级。每一天，一个带有当天唯一上传时间的新特征组被加入到我们的图片集合中，然后我们为那个日期生成缺失的特征。因为老图像不会改变，所以他们的特征也不会被重新计算。如果生成某个特征的算法或者参数被修改了，或者如果一个新的特征被增加，那么一个新的特征存储将开始工作，并且所有的年代组会为修改／新增特征重新计算。不改变的特征不受影响。

< ">我们将这些特性复制到各种表单中，以方便其他工作访问：这些特征会合并，组成一个包含一张图片所有可使用特征的指纹（fingerprint），然后指纹会被复制分享，形成为根据图片特征（MD5 hash）随机访问的排序文件。这些加入的指纹文件会定期地再实现，但是那些昂贵的特征计算只需要每张图片计算一次。

图5：增量式指纹更新渠道的输出实例。初始运行显示为2014-XX-XX，其中包括在运行之前创建的所有图像。

< ">图5展示了一个增量指纹更新过程的流程图。它包含5个主要工作：

< ">编辑新上传图片特征的列表，并且把它们按日期分组到时代组中。我们随机将每个时代组划分为大约20万张图像的分类碎片，以限制最终指纹文件的大小。

< ">定义每个特征存储中缺失的时代组，并将工作排队到PinLater（一个分布式队列服务，类似于Amazon SQS）。这个工作被再分为碎片到“工作块”中，调整为这类工作块每个大约花费30分钟来计算。

< ">运行在EC2 instances的自动启动群集，其规模取决于更新的大小。可以使用Spot instances；如果一个instances被终止了，它的工作将在其他的工作块上重新排期。每个工作块的产出都存储到Amazon S3中，并且最终重组成为与原始碎片对应的特征文件。

< ">将独立的特征碎片融合为一个统一的包含每个图像所有可利用特征的指纹文件。

< ">将所有的年代组（联通其他元数据）的指纹融合到一个排序中，分片文件格式允许随机存取（VisualJoins）。

< ">对所有图片所有可利用特征的最初计算，使用了数百个32核机器，花费一天多一点的时间，产生了大约5TB的数据信息。而增量处理新图像的稳态要求仅为5台机器。

< ">2.3.搜索基础

< ">在Pinterest，分布式可视化搜索系统有好几个用例。其中一个用例是发掘相似外表的产品（PInterest Similar Looks），和其他包括近似重复检测和内容推荐。在所有这些应用中，视觉相似结果是通过前一个章节的Visualjoins顶部的分布式索引来计算的。由于每个用例有不同的性能和成本需求，我们的搜索基础被设计成灵活的和可重构的。图6展示了搜索基础的流程图。

图6：分布式视觉搜索渠道的流程图。

< ">第一步，我们用Hadoop从Visualjoins创造了分布式图像索引。每台机器包含索引（和特征），这些索引和整个图片集合的随机分散的子集相关。这里使用了两类索引：

< ">第一种是基于磁盘（和部分内存缓存）的token index，将每个矢量量化特性（比如，视觉词汇token）与图像文档ID的展示列表关联起来。这与基于文本的图像检索系统类似，只是文本被视觉标记所替代。

< ">第二个索引是一个视觉特性和元数据的内存存储，比如，图像注释，以及从【用户-board-图像】图计算的“主题向量”。

< ">第一类适合于快速（但模糊）查表，第二类适合于更精确（但较慢）排序优化。

< ">每一台机器运行一个leaf排序器，用来从使用视觉特征的索引中计算k最近邻（k-nearest neighbors），然后使用额外的元数据重新排序顶部的候选数据。在某些情况下，leaf排序器跳过token索引，直接用类似KNN方法从特征树索引中检索k最近邻。另一台机器上的一个根排序器将会从每个leaf排序器取回最高分数的结果，并且将这些结果融合，然后返还给用户。为了处理我们的实时特征提取器生成的新指纹，我们有一个可视化搜索渠道的线上版本，其中有一个非常相似的过程。即使在线上版本中，给定的指纹依然会在预生成的索引上查询。

< ">3.应用1:RELATED PINS

< ">Pinterest视觉搜索渠道的其中一个首批应用是在一个叫做Related Pins的推荐产品，这个应用中在用户正在浏览一个Pin时推荐给其他可能感兴趣的图像。传统上，我们使用了结合用户创建的【图像-Board】的关系和基于内容的信号来产生这些建议。然而，这套系统不能为不流行的pins（没有很多联系的pins）和新创建的pins（可能还没有创建索引）提供推荐。结果，Pinterest上有6%的图像只有极少或者没有推荐。对于这些图像，我们使用视觉搜索渠道来实时生成Visual Related Pins（图7）。

图7：在加入视觉相关搜索之前和之后的对比。

< ">Visual Related Pins的第一步，是用从所有存在的Pinterest图像建立的本地token索引，来检测是否我们有重复或极相似的查询图像。具体地说，给定一个查询图像，系统返回一组图像，这些图像是同一个图像的变化，但通过一些转换发生了变化，比如，调整大小、裁剪、旋转、平移、添加、删除和修改视觉内容的次要部分。由于结果图像看起来与查询图像完全相同，所以它们的建议很可能与查询图像相关。然而，在大多数情况下，我们发现有很多图像没有检测到接近重复的图像，或者相似的图像没有足够的推荐。因此，我们的注意力主要集中在基于CNN特征的索引中产生的视觉搜索结果检索。

< ">搜索相关性的静态评价

< ">我们最初的视觉相关Pins实验利用来自AlexNet模型的原始和微调版本在它的搜索基础中。然而，更深层次CNN架构分类的成功使我们调查来自各种CNN模型功能集的性能。

< ">为了对视觉搜索进行评估，我们使用与图像相关联的图像注释作为关联性的指标。除了人工评价外，这种方法通常用于视觉搜索系统的离线评价。在这项工作中，我们使用与每个图像相关联的顶级文本查询作为标签。我们用Pinterest Search查询1000次，每次3000个图像，获得了大约160万个独特图像的数据集。我们用生成它的查询关键词标记每个图像。如果两个图像共享一个标签，则可视搜索结果与查询图像相关。

< ">利用这个数据集，我们基于如下几个特征，为推荐系统计算精确的k最近邻值：

< ">从普通的AlexNet模型的fc6层的激活（为ILSVRC的前期训练），这个AlexNet模型的fc6层激活微调到识别超过3000个Pinterest产品品类；

< ">一个普通GoogleNet的loss3/classifier的激活；

< ">以及一个普通VGG16层模型的fc6层的激活。

< ">表1：视觉搜索的相关性

< ">表1展示了这些模型的p 5和p 10表现，随着我们的视觉搜索服务的平均基于CPU的延迟，其中包括查询图像的特征提取和检索。使用基于GPU的推算大大减少了这些延迟。当使用VGG16层模型的FC6层特征，我们观察到对比我们的预估数据集在精度上有极大的提升，为我们的应用提供了一个可接受的延迟。

< ">线上体验

< ">我们建立了一个系统来检测只有很少推荐的新Pins，查询我们的视觉搜索系统，并在HBas企业品牌营销策划公司e中存储，在Pin被点击放大时提供服务。

< ">对于这个应用，当大多数共享一个共同类别时，我们会显示视觉搜索结果（category conformity thresholding）。我们选择以这种方式进行覆盖，以获得更高的精度，以避免在我们对视觉搜索结果的信心相对较低时使用它。

< ">我们最初对10%合适的实时通信量进行了试验；当用户点开一个Pin时，却没有足够的推荐，这批用户是合适的。合适的用户将会触发进入两个组中：实验组（用视觉搜索结果取代了related pin的部分）、控制组（不做处理）。我们计算在related pins模块中，总repin行为的变化量。

< ">通过只为6%的请求展示视觉相似的pin，其他给出空推荐，我们观察到在related pins的总repin行为增加了2%。而且，我们也做了其他的实验，我们将所有使用深度CNN特征相似性的推荐进行排序，在repin和点击参与率方面提高了10%。

< ">4.应用2:SIMILAR LOOKS

< ">女装时尚是Pinterest上最受欢迎的种类之一。然而，这类pin有很大一部分比例没有直接引导用户去产生购物的能力，因此并没有导购能力。在这里，为了让这些pin具有导购能力，我们有两个挑战：

< ">许多pin的标签仅仅有简短的描述，比如「街头时尚」的服饰，这类pin通常链接一个没有对图像中的目标特征进行多少描述的网站；

< ">pin图像通常包含多个目标（比如，一个女人走在街道上，提着豹纹包，穿着靴子，戴着墨镜，穿着超短牛仔裤，等等）。

< ">一个用户查看某个pin，可能对其中的包特别感兴趣，然而其他用户可能会想要购买那个墨镜。

< ">用户研究表明这种事情是非常常见的挫折感，我们的数据指出，相比其他种类，在女装时尚种类中，用户点击图片看源网站的概率要更小。

< ">为了解决这个问题，我们做出了一个叫做“Similar Looks”的产品，它可以对时尚目标定位和分类（图8）。我们使用目标识别技术来检测Pinterest图像中的目标，比如，包，鞋，裤子，手表，等等。从这些目标中，我们抽取出视觉和语义的特征，来生成产品推荐（“Similar Looks”）。一个用户将会通过一个在Pin上的目标中的红色斑点发现这些推荐（图1）。点击红色斑点，能够获取一个在视觉特征上非常相似的pin的瀑布流（比如，蓝色连衣裙的其他视觉相似图片）。

图8：一旦用户点击了红点，系统会展示对该目标具有相似外观的产品。

< ">相关工作

< ">目前，在学术界和工业中，已经有将应用视觉搜索技术到一些“软产品”上。Like.com,Google Shopping，和Zappos（亚马逊旗下）都是一些著名的计算视觉来进行时尚推荐的应用。Ba精准营销idu和Alibaba最近也上线了视觉搜索系统来解决相似的问题。在基于视觉基础的时尚推荐搜索也有大量的提升。我们的方式证明，为数千万Pinterest用户提供基于目标的视觉搜索系统的可行性，以及展示了一个关于被检测目标的交互搜索方式。

< ">目标定位的静态评价

< ">评价我们Similar Looks产品的第一步是调查我们的目标定位和检测能力（即，位置准确性和识别准确性）。我们选择专注于时尚目标，即因为上述的商业需求，也因为“软产品”往往具有具体的视觉形象（比如，短裤，包，墨镜，等等）。

< ">我们通过从Pinterest的女装时尚种类中随机抽样一组图片来收集我们的评价数据，并且在9个大类（鞋子，连衣裙，墨镜，包，手表，裤子，短裤，比基尼，耳环）中对2399个时尚目标进行人工打标。我们观察到，鞋子，包，连衣裙和裤子在我们的评价数据中是4个最大的分类。表2是时尚目标的分布，也是来自基于文本筛选的，基于图片检测的，和融合方法（先使用图片筛选，再使用目标检测）的图片检测准确率。

< ">表2:目标检测／分类准确度（%）

< ">正如先前所说的，基于文本的方法应用人工创造的规则，比如，通用的描述，来将Pinterest大数据连接到图像中（这类我们叫他们weak lable）。比如，一个图片被注释：“春季时尚，tote（一个包的品牌）和花”，可能被分类为一个“包”，并且如果图片确实包含一个“包”的目标标签，这会被考虑成是一个确定的事例。在基于图片的评价中，我们计算了预测对象包围盒和同一类型的标记对象包围盒之间的交集，并计算了一个大于0.3或大于等于的交集作为一个正匹配。

< ">表2表明了，无论是文本注释筛选，还是单独的目标定位，都不足以完成我们的检测任务，由于二者相对较高的错误率（分别为6.7%和2.5%）。不出意料地，结合二者的方法极大的减少了我们的错误率到1%以下。

< ">具体来说，我们看到那些种类，比如眼镜，文本注释是不足够的，但是基于视觉分类却很优秀（可能是由于眼镜特殊的视觉形状）。对于其他种类，比如连衣裙，这就恰好相反（视觉搜索的错误率太高，12.3%，由于该种类经常被遮挡，以及样式的高度多样性，但是加入了文本筛选就显著的改变了结果）。除了减少我们需要用对象分类器处理的图像数量外，对于几个对象类（鞋子、包、裤子），我们观察到文本过滤对于实现可接受的错误率（1%以下）是至关重要的。

< ">线上体验

< ">我们的系统从Pinterest图片的分组中定义了超过八千万的“可点击”的目标。一个可点击的红点被放置在被检测出的目标上。一旦用户点击这个点，我们的视觉搜索系统取回一个带有同一目标种类其他实体的pins的集合，然后用请求到的目标的视觉相似度进行排序。我们对一小部分Pinterest的用户发布了这一功能，收集在一个月内她们的参与度。具体来说，我们观察小点的点击通过率（CTR），在我们的视觉搜索系统上的CTR，并且我们比较了在现有Related Pins推荐的参与度和Similar Looks中的参与度。

图9：Similar Looks实验的参与率

< ">图9表明，平均下，在某一天，12%的用户在看见一个带有小点的pin，点击了这个小点。这些用户愿意继续点击平均0.55个Similar Looks的结果。虽然这组数据很鼓舞人心，但是当我们比较所有在pin的点击大图的相关内容的参与度时（总和了Related PIns和Similar Looks的参与度作为变量组，只使用Related Pins的参与度作为控制组），Similar Looks事实上降低了在pin点击大图时的总体参与度，降低了4%。在新奇效果结束后，我们观察到在红点上的CTR上的一个逐渐降低，最终稳定在10%左右。

< ">为了测试我们Similar Looks的相关性，是独立于新UI（可点击点的目标点），我们进行了一组实验，我们直接将Similar Looks的结果混合到现有的Related Pins中。这给我们一个方式去直接计算是否用户发现我们的视觉相似推荐是比我们现存在的非视觉推荐更相关。在我们检测到一个目标的pins伤，这个实验增加了在Related Pins总体的参与度（repins和放大图片）达到5%。虽然我们为这个实验设置了一个初始的静态混合比例（每三个非视觉结果对一个视觉相似结果），我们稍后使用用户点击数据动态调整了这一比例。

< ">5.总结和未来的工作

< ">我们证明了，利用可用的分布式计算平台，比如Amazon Web Services和开源工具，少数工程师或学术实验室可以使用非专有工具组合构建大规模视觉搜索系统。这篇文章表明，我们端对端的视觉搜索渠道，包含递增特征更新和两步式目标检测和定位方式，提高了搜索准确性，降低了研发和部署成本。我们的线上产品经验表明，视觉搜索特征可以增加用户参与度。

< ">我们计划在接下来的领域中进一步提升我们的系统。

< ">我们对于在线上视觉搜索系统环境下，基于目标检测方式的CNN的表现和效率感兴趣；

< ">我们对Pinterest的“策展图”来增强视觉搜索相关性的影响力感兴趣；

< ">我们想尝试用于视觉搜索的交互式交互界面。

< ">图像识别实例

图10：以鞋为对象的搜索结果示例。检测到的对象的边界自动突出显示。顶层图像是查询图像。

图11：以包为目标的检测和定位结果样本。[绿色：人工打标，蓝色：识别结果]

图12：以鞋为目标的检测和定位结果样本。

图13：以连衣裙为目标的检测和定位结果样本。

本文译自

Jing,Y.,Liu,D.,Kislyuk,D.,Zhai,A.,Xu,J.,Donahue,J.,&Tavel,S.(2015,August).Visual search at pinterest.In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(pp.1889-1898).ACM.

上一篇：使用Azure登陆区创建云就绪环境
下一篇：Pinterest使用的推荐系统