小红花·文摘

该研究提出了一种基于学习嵌入空间的像素级检索方法，用于解决视频对象分割问题。该方法支持不同类型的用户输入，并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。