本研究提出了一种新颖的神经上下文场景图方法,旨在帮助机器理解未见或嘈杂的三维环境中的场景上下文。该方法通过提取和对齐场景区域的语义和几何信息,提高了在复杂室内场景中识别类比和转移轨迹的能力,具有在机器人和增强现实/虚拟现实中的应用潜力。
在使用traverse()方法移除场景子对象时,因动态修改子对象数组导致只移除一个子对象。建议先收集要移除的子对象,再统一移除。Three.js文档指出不建议在回调中修改场景图。
本研究提出CompreCap基准,评估大型视觉语言模型在生成图像字幕方面的表现。通过语义分割和定向场景图,开发了多层次评估流程,实验结果与人工评估高度一致。
本研究提出了一种系统化的场景图构建框架,克服了文本到视觉生成模型评估的局限性。通过生成场景图,模型性能显著提升,展现了自我改进和内容审核的潜力。
本研究提出了HyperGLM,通过构建统一场景超图,解决了视频场景图生成中复杂互动和推理的不足。实验结果表明,其在五项任务中优于现有方法。
本研究提出了SceneGraMMi方法,通过整合多模态场景图,提升虚假信息检测的性能。实验表明,该方法在四个数据集上优于现有技术,并展示了模型决策的可解释性。
该论文介绍了一种新方法,通过学习场景图中每个节点的嵌入,实现了在多模式参考地图中定位输入图像的目标。该方法比其他跨模态方法更高效,并且在使用图像时性能相当,同时存储效率和运行速度都有显著提升。
本文介绍了一种基于场景图的三维场景理解方法,利用PointNet和GCN实现场景图的回归,并应用和评估了3DSSG数据集。
RepSGG是一种新型架构,用于生成场景图。它使用查询和键来表示实体和目标,并通过最大注意力权重表示它们之间的关系。通过仿射变换,RepSGG鼓励平衡性能。实验结果显示,RepSGG在Visual Genome和Open Images V6数据集上具有先进的性能和快速推理速度。
研究者提出了GPT4SGG框架,通过综合和区域特定的叙述来合成场景图,提高了SGG模型的性能。这项工作有望推动语言模型的视觉推理能力研究。
介绍了基于金庸武侠小说的交互式RPG游戏引擎,用户扮演角色影响故事发展,GPT生成场景和对话选项,强调目标和用户角色的重要性,平衡用户需求和创造性的挑战。
提出了一种名为RepSGG的新型架构,用于生成场景图。通过将实体表示为查询,目标表示为键,并使用最大注意力权重表示它们之间的关系,实现了更细粒度和灵活的特征表达。通过在训练期间进行仿射变换,对关系的逻辑进行修改,以提高性能平衡。实验结果表明,RepSGG在Visual Genome和Open Images V6数据集上具有先进或可比较的性能,并具有快速推理速度。
本文介绍了一种自动评估日语字幕场景图的方法JaSPICE,使用依赖关系和谓语-论元结构生成场景图,并使用同义词扩展图。实验结果表明,该方法超过基准度量方法与人工评估的相关系数。
SelfGraphVQA是一种框架,通过预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,改进了图表示在视觉问答任务中的利用。实验结果表明,提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。
本文介绍了VETO,一种用于生成场景图的视觉关系变换器。它采用新颖的实体关系编码器和互斥专家学习策略,能够捕捉实体的局部线索并消除偏见。实验结果显示,VETO + MEET的预测性能比现有技术高出47个百分点,且尺寸缩小了10倍。
完成下面两步后,将自动完成登录并继续当前操作。