本文提出了一种新方法Robo-SGG,通过布局嵌入编码器(LEE)提升受损图像的场景图生成效果,显著提高生成性能,对该领域具有重要影响。
本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系和泛化能力不足的问题。实验结果表明,该模型的召回率提高了8.6%。
现有方法忽视了场景图生成中的概念不平衡问题。为此,提出了广义无偏场景图生成(G-USGG),结合多概念学习和概念正则化技术,量化并学习谓词间的不平衡。通过平衡原型记忆实现概念的平衡学习。实验表明,该方法在VG-SGG和OI-SGG数据集上显著提升了模型性能。
本文讨论了场景图生成中细粒度谓词预测能力不足的问题,并提出了解决方案,如集成谓词解码、谓语相关性感知学习、堆叠式混合注意力和群组协作学习等。这些方法显著提高了模型性能和准确性。
本研究提出了FleVRS模型,解决了视觉关系理解的局限性。FleVRS在人体-object交互、场景图生成和指代关系任务中表现优于现有模型,提升了直观性与可扩展性。
介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成,通过多视角的2D场景和3D点云生成场景图,具有较低的计算成本,提高了精度并减少了模型参数。
介绍了IETrans内外数据传输方法,解决场景图生成中的长尾分布和语义歧义问题。通过创建增强数据集,提供更充分和连贯的注释,可应用于大规模带有1,807个谓词类的SGG。使用神经因子模型在增强数据集上训练,保持竞争性宏性能的同时,使得宏性能翻倍。
本研究介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案,促进多视角视觉信息交互,并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明,S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比,提高了3%的精度并减少了24.2M的模型参数。
本文提出了一种通过图像-句子对学习的方法,用于提取图像中本地化对象及其关系的图形表示。该模型通过利用现有的对象检测器来识别和定位对象实例,并通过掩码标记预测任务来学习场景图。相较于使用人工注释的非定位场景图训练的最新方法,该模型获得了30%的相对增益。同时,在弱监督和全监督场景图生成方面,该模型也展现了出色的结果,并探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
完成下面两步后,将自动完成登录并继续当前操作。