本文提出了一种新方法Robo-SGG,通过布局嵌入编码器(LEE)提升受损图像的场景图生成效果,显著提高生成性能,对该领域具有重要影响。
本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。通过增强空间关系建模和利用新数据集进行训练,LLaVA-SpaceSGG在召回率上显著提高,实验结果显示召回率提升8.6%,平均召回率提升28.4%。
本研究提出了Point2Graph框架,旨在解决现有开放词汇场景图生成算法对RGB-D图像和相机姿态的依赖。该框架采用层次化设计,结合几何与学习方法进行房间和物体的检测与分类,评估结果显示其在实际场景数据集上的表现优于现有算法。
本文讨论了场景图生成中细粒度谓词预测能力不足的问题,并提出了解决方案,如集成谓词解码、谓语相关性感知学习、堆叠式混合注意力和群组协作学习等。这些方法显著提高了模型性能和准确性。
本文探讨了基于加性关注机制和大型语言模型的场景理解方法,旨在解决场景图生成中的对象关系长尾分布问题。实验结果表明,这些方法在视觉输入、物体重新摆布和人机交互等任务中表现优越,提升了机器人在复杂环境中的操作能力和灵活性。
本研究提出了FleVRS模型,解决了视觉关系理解的局限性。FleVRS在人体-object交互、场景图生成和指代关系任务中表现优于现有模型,提升了直观性与可扩展性。
本文介绍了多种场景图生成(SGG)模型的改进方法,包括TISGG模型、IETrans方法和自我训练框架(ST-SGG)。这些方法旨在解决长尾问题和三元组识别困难,实验结果表明它们在性能上有显著提升。
该研究提出了综合连续场景图生成数据集,探索现有方法在学习新对象时的保留情况,并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法,显著提升了场景图生成性能。此外,开发了图像到文本模型,降低了构建成本,并提出了基于场景图的三维理解方法和开放词汇生成框架。
本文介绍了DB-SGG、DSGG和TISGG等场景图生成模型的创新方法,旨在解决数据不平衡和语义歧义问题。这些模型通过新的框架和策略,在长尾分布和三元组识别方面取得了显著的性能提升,展示了在场景图生成任务中的先进成果。
本文介绍了多种基于 Transformer 的场景图生成方法,包括 STKET、DSGG 和 TEMPURA。这些方法通过空间-时间知识、图感知查询和无偏差关系表示,提升了视频场景图生成的性能。研究表明,这些方法在不同数据集上均取得了显著的性能提升,推动了视频对象分割和图像描述的进展。
本文介绍了多种创新的场景图生成方法,包括综合连续场景图生成(CSEGG)、边缘双场景图生成(EdgeSGG)和终身场景图生成(LSGG)。研究表明,这些方法在对象关系预测和长尾问题上取得显著提升,尤其在视觉语言任务中表现优异。此外,空间-时间知识嵌入变压器(STKET)和Text-Image结合模型(TISGG)在生成视频场景图和解决长尾问题方面也展现了优势。
本研究提出了一种新型单阶段双模态变压器框架S^2Former-OR,用于手术室场景图生成。该框架整合多视角2D场景和3D点云信息,提升了生成精度和效率。实验结果显示,S^2Former-OR在4D手术室基准测试中表现优越,精度提高3%,模型参数减少24.2M,展现了在手术室建模中的潜力。
本文介绍了一种新型基于Transformer的场景图生成方法DSGG,该方法通过图感知查询进行图预测,有效解决了节点关系的紧凑表示和语义重叠问题。实验结果表明,该模型在场景图生成任务中显著提升了性能,尤其在全景场景图生成方面表现突出。
本文介绍了一种新的场景图生成方法,基于人类认知习惯构建分层实体树,并通过Hybrid-LSTM解析生成场景图。研究表明,该方法在图像检索和下游任务中表现优越,特别是在搜索效率和可解释性方面。
本文提出了统一框架OvSGTR,旨在实现开放词汇的场景图生成,并通过知识蒸馏保持视觉与概念的对齐。研究表明,使用小型数据集和新训练方法可显著提升视觉-语言模型的表现。此外,框架GPT4SGG通过自然语言描述生成场景图,解决了数据稀疏性问题,提升了模型性能。
本文提出了一种新型场景图生成算法,结合外部知识和图像重建损失,提升场景图的可推广性,并解决嘈杂对象注释偏差问题。实验结果表明,该框架在“视觉关系检测”和“视觉基因组”数据集上表现优异。
本文介绍了综合连续场景图生成(CSEGG)数据集,探讨了现有场景图生成(SGG)方法在学习新对象时对旧对象的保留情况,以及如何通过连续目标检测提升对未知对象的泛化能力。同时,研究发展了基于多种模型的场景图像生成基准测试,并提出了优化视觉语言融合和医学知识提炼的新方法。
本研究介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案,促进多视角视觉信息交互,并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明,S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比,提高了3%的精度并减少了24.2M的模型参数。
本文提出了一种通过图像-句子对学习的方法,用于提取图像中本地化对象及其关系的图形表示。该模型通过利用现有的对象检测器来识别和定位对象实例,并通过掩码标记预测任务来学习场景图。相较于使用人工注释的非定位场景图训练的最新方法,该模型获得了30%的相对增益。同时,在弱监督和全监督场景图生成方面,该模型也展现了出色的结果,并探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
完成下面两步后,将自动完成登录并继续当前操作。