OpenPSG:离AGI再进一步,首个开放环境关系预测框架 | ECCV'24 - 晓飞的算法工程笔记

💡 原文中文,约8300字,阅读约需20分钟。
📝

内容提要

全景场景图生成(PSG)旨在分割图像中的对象并识别其关系。传统方法仅适用于封闭集,无法处理开放集关系。本文提出OpenPSG,结合预训练模型,实现开放集关系预测。通过引入关系查询变换器,提取对象对特征并判断关系,显著提升预测效率。实验结果表明,OpenPSG在开放集关系预测和全景场景图生成方面表现优异。

🎯

关键要点

  • 全景场景图生成(PSG)旨在分割图像中的对象并识别其关系。
  • 传统方法仅适用于封闭集,无法处理开放集关系。
  • 本文提出OpenPSG,结合预训练模型,实现开放集关系预测。
  • OpenPSG引入关系查询变换器,提取对象对特征并判断关系,提升预测效率。
  • 实验结果表明,OpenPSG在开放集关系预测和全景场景图生成方面表现优异。
  • OpenPSG利用大型多模态模型(LMMs)以自回归方式实现开放集关系预测。
  • 模型包括开放集全景分割器、关系查询变换器和多模态关系解码器三个部分。
  • 开放集全景场景图生成的目标是从图像中提取开放集全景场景图。
  • 对象分割器利用预训练模型预测图像中的对象及其视觉特征。
  • 关系查询变换器通过成对特征提取查询和关系存在估计查询来评估对象对之间的关系。
  • 多模态关系解码器结合生成和判断指令进行开放集关系预测。
  • 论文是首个提出开放集全景场景图生成任务的研究,取得了最先进的结果。
  • 模型训练过程中使用二元交叉熵损失和交叉熵损失的组合。
  • 实验使用预训练的OpenSeeD作为开放集对象分割器,采用BLIP-2的解码器。