面向灵活的视觉关系分割
原文中文,约2000字,阅读约需5分钟。发表于: 。本研究解决了视觉关系理解在人体-object交互、场景图生成和指代关系任务中的局限性。我们提出了FleVRS模型,能够统一处理这三项任务,并支持开放词汇分割以适应新场景。实验证明,FleVRS在多个数据集上的表现优于现有模型,标志着视觉关系理解的直观性与可扩展性的显著提升。
本研究提出了FleVRS模型,解决了视觉关系理解的局限性。FleVRS在人体-object交互、场景图生成和指代关系任务中表现优于现有模型,提升了直观性与可扩展性。