小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文提出了一种新方法Robo-SGG,通过布局嵌入编码器(LEE)提升受损图像的场景图生成效果,显著提高生成性能,对该领域具有重要影响。

Robo-SGG: Achieving Robust Scene Graph Generation through Layout-Guided Normalization and Restoration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。通过增强空间关系建模和利用新数据集进行训练,LLaVA-SpaceSGG在召回率上显著提高,实验结果显示召回率提升8.6%,平均召回率提升28.4%。

LLaVA-SpaceSGG: Visual Instruct Tuning for Open-Vocabulary Scene Graph Generation with Enhanced Spatial Relations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了Point2Graph框架,旨在解决现有开放词汇场景图生成算法对RGB-D图像和相机姿态的依赖。该框架采用层次化设计,结合几何与学习方法进行房间和物体的检测与分类,评估结果显示其在实际场景数据集上的表现优于现有算法。

Point2Graph: An End-to-End Point Cloud-Based 3D Open-Vocabulary Scene Graph Generation Framework for Robot Navigation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本文讨论了场景图生成中细粒度谓词预测能力不足的问题,并提出了解决方案,如集成谓词解码、谓语相关性感知学习、堆叠式混合注意力和群组协作学习等。这些方法显著提高了模型性能和准确性。

无偏场景图生成的集成谓词解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

本文探讨了基于加性关注机制和大型语言模型的场景理解方法,旨在解决场景图生成中的对象关系长尾分布问题。实验结果表明,这些方法在视觉输入、物体重新摆布和人机交互等任务中表现优越,提升了机器人在复杂环境中的操作能力和灵活性。

基于大语言模型的家庭物品重排场景图学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本研究提出了FleVRS模型,解决了视觉关系理解的局限性。FleVRS在人体-object交互、场景图生成和指代关系任务中表现优于现有模型,提升了直观性与可扩展性。

面向灵活的视觉关系分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文介绍了多种场景图生成(SGG)模型的改进方法,包括TISGG模型、IETrans方法和自我训练框架(ST-SGG)。这些方法旨在解决长尾问题和三元组识别困难,实验结果表明它们在性能上有显著提升。

Scene Graph Generation with Enhanced Data Transfer and Human Triplet Collaboration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

该研究提出了综合连续场景图生成数据集,探索现有方法在学习新对象时的保留情况,并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法,显著提升了场景图生成性能。此外,开发了图像到文本模型,降低了构建成本,并提出了基于场景图的三维理解方法和开放词汇生成框架。

大规模遥感卫星影像中场景图生成:一个大样本数据集与上下文感知方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本文介绍了DB-SGG、DSGG和TISGG等场景图生成模型的创新方法,旨在解决数据不平衡和语义歧义问题。这些模型通过新的框架和策略,在长尾分布和三元组识别方面取得了显著的性能提升,展示了在场景图生成任务中的先进成果。

利用谓词和三元组学习进行场景图生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

本文介绍了多种基于 Transformer 的场景图生成方法,包括 STKET、DSGG 和 TEMPURA。这些方法通过空间-时间知识、图感知查询和无偏差关系表示,提升了视频场景图生成的性能。研究表明,这些方法在不同数据集上均取得了显著的性能提升,推动了视频对象分割和图像描述的进展。

CYCLO: 高空视频中多物体关系建模的循环图变换方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文介绍了多种创新的场景图生成方法,包括综合连续场景图生成(CSEGG)、边缘双场景图生成(EdgeSGG)和终身场景图生成(LSGG)。研究表明,这些方法在对象关系预测和长尾问题上取得显著提升,尤其在视觉语言任务中表现优异。此外,空间-时间知识嵌入变压器(STKET)和Text-Image结合模型(TISGG)在生成视频场景图和解决长尾问题方面也展现了优势。

具有共现知识和可学习的术语频率的场景图生成策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

本研究提出了一种新型单阶段双模态变压器框架S^2Former-OR,用于手术室场景图生成。该框架整合多视角2D场景和3D点云信息,提升了生成精度和效率。实验结果显示,S^2Former-OR在4D手术室基准测试中表现优越,精度提高3%,模型参数减少24.2M,展现了在手术室建模中的潜力。

手术室场景图生成的时间动态三模态融合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-14T00:00:00Z

本文介绍了一种新型基于Transformer的场景图生成方法DSGG,该方法通过图感知查询进行图预测,有效解决了节点关系的紧凑表示和语义重叠问题。实验结果表明,该模型在场景图生成任务中显著提升了性能,尤其在全景场景图生成方面表现突出。

从 Transformer 中提取出图形用于场景图生成的 EGTR

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

本文介绍了一种新的场景图生成方法,基于人类认知习惯构建分层实体树,并通过Hybrid-LSTM解析生成场景图。研究表明,该方法在图像检索和下游任务中表现优越,特别是在搜索效率和可解释性方面。

通过双曲视觉层级映射提升视觉识别能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文提出了统一框架OvSGTR,旨在实现开放词汇的场景图生成,并通过知识蒸馏保持视觉与概念的对齐。研究表明,使用小型数据集和新训练方法可显著提升视觉-语言模型的表现。此外,框架GPT4SGG通过自然语言描述生成场景图,解决了数据稀疏性问题,提升了模型性能。

从像素到图形:利用视觉语言模型进行开放式场景图生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文提出了一种新型场景图生成算法,结合外部知识和图像重建损失,提升场景图的可推广性,并解决嘈杂对象注释偏差问题。实验结果表明,该框架在“视觉关系检测”和“视觉基因组”数据集上表现优异。

外部知识增强的基于草图的三维场景生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-21T00:00:00Z

本文介绍了综合连续场景图生成(CSEGG)数据集,探讨了现有场景图生成(SGG)方法在学习新对象时对旧对象的保留情况,以及如何通过连续目标检测提升对未知对象的泛化能力。同时,研究发展了基于多种模型的场景图像生成基准测试,并提出了优化视觉语言融合和医学知识提炼的新方法。

HiKER-SGG:分层知识增强鲁棒场景图生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本研究介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案,促进多视角视觉信息交互,并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明,S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比,提高了3%的精度并减少了24.2M的模型参数。

SDR-Former:一种用于肝脏病变分类的孪生双分辨率 Transformer,使用 3D 多相成像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-27T00:00:00Z

本文提出了一种通过图像-句子对学习的方法,用于提取图像中本地化对象及其关系的图形表示。该模型通过利用现有的对象检测器来识别和定位对象实例,并通过掩码标记预测任务来学习场景图。相较于使用人工注释的非定位场景图训练的最新方法,该模型获得了30%的相对增益。同时,在弱监督和全监督场景图生成方面,该模型也展现了出色的结果,并探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。

利用文本区域增强的面向对象分层表示的自我监督场景文本分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码