全景场景图生成(PSG)旨在分割图像中的对象并识别其关系。传统方法仅适用于封闭集,无法处理开放集关系。本文提出OpenPSG,结合预训练模型,实现开放集关系预测。通过引入关系查询变换器,提取对象对特征并判断关系,显著提升预测效率。实验结果表明,OpenPSG在开放集关系预测和全景场景图生成方面表现优异。
本文介绍了全景场景图(PSG)生成的新任务,创建了高质量数据集并提出多种改进方法。研究了图像到文本模型(ISRG),显著降低了场景图构建成本。探讨了基于Transformer的DSGG方法,取得了先进的生成效果,并提出了基于结构图的物体检测框架,提升了检测准确性。
完成下面两步后,将自动完成登录并继续当前操作。