重访牛津和巴黎的基于内容的像素检索

原文约300字,阅读约需1分钟。发表于:

该论文引入了第一个像素检索基准,通过标注相关像素可以显著提高用户体验,并且提出了基于 ROxford 和 RParis 数据集的 PROxford 和 PRParis 像素检索基准,通过实验证明像素检索任务具有挑战性并且与现有问题有区别。

该研究提出了一种基于学习嵌入空间的像素级检索方法,用于解决视频对象分割问题。该方法支持不同类型的用户输入,并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。

重访牛津和巴黎的基于内容的像素检索
交互式场景 像素级检索 半监督场景 学习嵌入空间 视频对象分割
相关推荐 去reddit讨论