小红花·文摘

本文提出了一种新方法Robo-SGG，通过布局嵌入编码器（LEE）提升受损图像的场景图生成效果，显著提高生成性能，对该领域具有重要影响。

Robo-SGG: Achieving Robust Scene Graph Generation through Layout-Guided Normalization and Restoration

BriefGPT - AI 论文速递 ·

本研究提出了LLaVA-SpaceSGG模型，解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。通过增强空间关系建模和利用新数据集进行训练，LLaVA-SpaceSGG在召回率上显著提高，实验结果显示召回率提升8.6%，平均召回率提升28.4%。

LLaVA-SpaceSGG: Visual Instruct Tuning for Open-Vocabulary Scene Graph Generation with Enhanced Spatial Relations

BriefGPT - AI 论文速递 ·

本研究提出了Point2Graph框架，旨在解决现有开放词汇场景图生成算法对RGB-D图像和相机姿态的依赖。该框架采用层次化设计，结合几何与学习方法进行房间和物体的检测与分类，评估结果显示其在实际场景数据集上的表现优于现有算法。

Point2Graph: An End-to-End Point Cloud-Based 3D Open-Vocabulary Scene Graph Generation Framework for Robot Navigation

BriefGPT - AI 论文速递 ·

本文讨论了场景图生成中细粒度谓词预测能力不足的问题，并提出了解决方案，如集成谓词解码、谓语相关性感知学习、堆叠式混合注意力和群组协作学习等。这些方法显著提高了模型性能和准确性。

无偏场景图生成的集成谓词解码

BriefGPT - AI 论文速递 ·

本文探讨了基于加性关注机制和大型语言模型的场景理解方法，旨在解决场景图生成中的对象关系长尾分布问题。实验结果表明，这些方法在视觉输入、物体重新摆布和人机交互等任务中表现优越，提升了机器人在复杂环境中的操作能力和灵活性。

基于大语言模型的家庭物品重排场景图学习

BriefGPT - AI 论文速递 ·

本研究提出了FleVRS模型，解决了视觉关系理解的局限性。FleVRS在人体-object交互、场景图生成和指代关系任务中表现优于现有模型，提升了直观性与可扩展性。

面向灵活的视觉关系分割

BriefGPT - AI 论文速递 ·

本文介绍了多种场景图生成（SGG）模型的改进方法，包括TISGG模型、IETrans方法和自我训练框架（ST-SGG）。这些方法旨在解决长尾问题和三元组识别困难，实验结果表明它们在性能上有显著提升。

Scene Graph Generation with Enhanced Data Transfer and Human Triplet Collaboration

BriefGPT - AI 论文速递 ·

该研究提出了综合连续场景图生成数据集，探索现有方法在学习新对象时的保留情况，并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法，显著提升了场景图生成性能。此外，开发了图像到文本模型，降低了构建成本，并提出了基于场景图的三维理解方法和开放词汇生成框架。

大规模遥感卫星影像中场景图生成：一个大样本数据集与上下文感知方法

BriefGPT - AI 论文速递 ·

本文介绍了DB-SGG、DSGG和TISGG等场景图生成模型的创新方法，旨在解决数据不平衡和语义歧义问题。这些模型通过新的框架和策略，在长尾分布和三元组识别方面取得了显著的性能提升，展示了在场景图生成任务中的先进成果。

利用谓词和三元组学习进行场景图生成

BriefGPT - AI 论文速递 ·

本文介绍了多种基于 Transformer 的场景图生成方法，包括 STKET、DSGG 和 TEMPURA。这些方法通过空间-时间知识、图感知查询和无偏差关系表示，提升了视频场景图生成的性能。研究表明，这些方法在不同数据集上均取得了显著的性能提升，推动了视频对象分割和图像描述的进展。

CYCLO: 高空视频中多物体关系建模的循环图变换方法

BriefGPT - AI 论文速递 ·

本文介绍了多种创新的场景图生成方法，包括综合连续场景图生成（CSEGG）、边缘双场景图生成（EdgeSGG）和终身场景图生成（LSGG）。研究表明，这些方法在对象关系预测和长尾问题上取得显著提升，尤其在视觉语言任务中表现优异。此外，空间-时间知识嵌入变压器（STKET）和Text-Image结合模型（TISGG）在生成视频场景图和解决长尾问题方面也展现了优势。

具有共现知识和可学习的术语频率的场景图生成策略

BriefGPT - AI 论文速递 ·

本研究提出了一种新型单阶段双模态变压器框架S^2Former-OR，用于手术室场景图生成。该框架整合多视角2D场景和3D点云信息，提升了生成精度和效率。实验结果显示，S^2Former-OR在4D手术室基准测试中表现优越，精度提高3%，模型参数减少24.2M，展现了在手术室建模中的潜力。

手术室场景图生成的时间动态三模态融合

BriefGPT - AI 论文速递 ·

本文介绍了一种新型基于Transformer的场景图生成方法DSGG，该方法通过图感知查询进行图预测，有效解决了节点关系的紧凑表示和语义重叠问题。实验结果表明，该模型在场景图生成任务中显著提升了性能，尤其在全景场景图生成方面表现突出。

从 Transformer 中提取出图形用于场景图生成的 EGTR

BriefGPT - AI 论文速递 ·

本文介绍了一种新的场景图生成方法，基于人类认知习惯构建分层实体树，并通过Hybrid-LSTM解析生成场景图。研究表明，该方法在图像检索和下游任务中表现优越，特别是在搜索效率和可解释性方面。

通过双曲视觉层级映射提升视觉识别能力

BriefGPT - AI 论文速递 ·

本文提出了统一框架OvSGTR，旨在实现开放词汇的场景图生成，并通过知识蒸馏保持视觉与概念的对齐。研究表明，使用小型数据集和新训练方法可显著提升视觉-语言模型的表现。此外，框架GPT4SGG通过自然语言描述生成场景图，解决了数据稀疏性问题，提升了模型性能。

从像素到图形：利用视觉语言模型进行开放式场景图生成

BriefGPT - AI 论文速递 ·

本文提出了一种新型场景图生成算法，结合外部知识和图像重建损失，提升场景图的可推广性，并解决嘈杂对象注释偏差问题。实验结果表明，该框架在“视觉关系检测”和“视觉基因组”数据集上表现优异。

外部知识增强的基于草图的三维场景生成

BriefGPT - AI 论文速递 ·

本文介绍了综合连续场景图生成（CSEGG）数据集，探讨了现有场景图生成（SGG）方法在学习新对象时对旧对象的保留情况，以及如何通过连续目标检测提升对未知对象的泛化能力。同时，研究发展了基于多种模型的场景图像生成基准测试，并提出了优化视觉语言融合和医学知识提炼的新方法。

本研究介绍了一种名为S^2Former-OR的新型变压器框架，用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案，促进多视角视觉信息交互，并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明，S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比，提高了3%的精度并减少了24.2M的模型参数。

SDR-Former：一种用于肝脏病变分类的孪生双分辨率 Transformer，使用 3D 多相成像

BriefGPT - AI 论文速递 ·

本文提出了一种通过图像-句子对学习的方法，用于提取图像中本地化对象及其关系的图形表示。该模型通过利用现有的对象检测器来识别和定位对象实例，并通过掩码标记预测任务来学习场景图。相较于使用人工注释的非定位场景图训练的最新方法，该模型获得了30％的相对增益。同时，在弱监督和全监督场景图生成方面，该模型也展现了出色的结果，并探究了用于检测场景图的开放词汇设置，并呈现了首个开放式场景图生成的结果。

利用文本区域增强的面向对象分层表示的自我监督场景文本分割

BriefGPT - AI 论文速递 ·

Robo-SGG: Achieving Robust Scene Graph Generation through Layout-Guided Normalization and Restoration

LLaVA-SpaceSGG: Visual Instruct Tuning for Open-Vocabulary Scene Graph Generation with Enhanced Spatial Relations

Point2Graph: An End-to-End Point Cloud-Based 3D Open-Vocabulary Scene Graph Generation Framework for Robot Navigation

无偏场景图生成的集成谓词解码

基于大语言模型的家庭物品重排场景图学习

面向灵活的视觉关系分割

Scene Graph Generation with Enhanced Data Transfer and Human Triplet Collaboration

大规模遥感卫星影像中场景图生成：一个大样本数据集与上下文感知方法

利用谓词和三元组学习进行场景图生成

CYCLO: 高空视频中多物体关系建模的循环图变换方法

具有共现知识和可学习的术语频率的场景图生成策略

手术室场景图生成的时间动态三模态融合

从 Transformer 中提取出图形用于场景图生成的 EGTR

通过双曲视觉层级映射提升视觉识别能力

从像素到图形：利用视觉语言模型进行开放式场景图生成

外部知识增强的基于草图的三维场景生成

HiKER-SGG：分层知识增强鲁棒场景图生成

SDR-Former：一种用于肝脏病变分类的孪生双分辨率 Transformer，使用 3D 多相成像

利用文本区域增强的面向对象分层表示的自我监督场景文本分割