重访牛津和巴黎的基于内容的像素检索

原文约300字，阅读约需1分钟。发表于：。

该论文引入了第一个像素检索基准，通过标注相关像素可以显著提高用户体验，并且提出了基于 ROxford 和 RParis 数据集的 PROxford 和 PRParis 像素检索基准，通过实验证明像素检索任务具有挑战性并且与现有问题有区别。

该研究提出了一种基于学习嵌入空间的像素级检索方法，用于解决视频对象分割问题。该方法支持不同类型的用户输入，并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。