本研究提出了一种新颖的神经上下文场景图方法,旨在帮助机器理解未见或嘈杂的三维环境中的场景上下文。该方法通过提取和对齐场景区域的语义和几何信息,提高了在复杂室内场景中识别类比和转移轨迹的能力,具有在机器人和增强现实/虚拟现实中的应用潜力。
在使用traverse()方法移除场景子对象时,因动态修改子对象数组导致只移除一个子对象。建议先收集要移除的子对象,再统一移除。Three.js文档指出不建议在回调中修改场景图。
本研究提出了HyperGLM,通过构建统一场景超图,解决了视频场景图生成中复杂互动和推理的不足。实验结果表明,其在五项任务中优于现有方法。
本研究提出了SceneGraMMi方法,通过整合多模态场景图,提升虚假信息检测的性能。实验表明,该方法在四个数据集上优于现有技术,并展示了模型决策的可解释性。
本文提出了多种基于场景图信息的人-物交互检测方法,包括利用几何特征的图卷积网络、时空变换器和级联架构等。这些方法显著提高了识别准确率,并在多个数据集上验证了其有效性,推动了人-物交互识别的研究进展。
该研究提出了一种基于场景图的发现网络(SGDN),用于开放词汇目标检测和场景图检测,克服了以往方法的局限性。同时,介绍了OpenSD框架,表现优于现有技术。研究回顾了开放词汇检测和分割的发展,提出了分类法,分析了不同方法的优缺点,并指出未来研究方向。实验结果显示,基于文本和多模态分类器的性能优于传统方法。
本研究探讨了基于场景图的胸部医学影像数据集,提出多种方法提升胸部X光和CT图像的分析与生成能力,利用自然语言处理、预训练模型和多模态深度学习框架,显著改善医学图像与报告的对齐和生成效果,推动医疗人工智能的发展。
介绍了基于金庸武侠小说的交互式RPG游戏引擎,用户扮演角色影响故事发展,GPT生成场景和对话选项,强调目标和用户角色的重要性,平衡用户需求和创造性的挑战。
提出了一种名为RepSGG的新型架构,用于生成场景图。通过将实体表示为查询,目标表示为键,并使用最大注意力权重表示它们之间的关系,实现了更细粒度和灵活的特征表达。通过在训练期间进行仿射变换,对关系的逻辑进行修改,以提高性能平衡。实验结果表明,RepSGG在Visual Genome和Open Images V6数据集上具有先进或可比较的性能,并具有快速推理速度。
研究者提出了GPT4SGG框架,通过综合和区域特定的叙述来合成场景图,提高了SGG模型的性能。这项工作有望推动语言模型的视觉推理能力研究。
本文介绍了一种自动评估日语字幕场景图的方法JaSPICE,使用依赖关系和谓语-论元结构生成场景图,并使用同义词扩展图。实验结果表明,该方法超过基准度量方法与人工评估的相关系数。
SelfGraphVQA是一种框架,通过预训练场景图生成器从图像中提取场景图,并应用语义保持增强和自监督技术,改进了图表示在视觉问答任务中的利用。实验结果表明,提取的场景图对于视觉问答非常有效,并且通过强调视觉信息的重要性来提升整体性能,为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。
本文介绍了VETO,一种用于生成场景图的视觉关系变换器。它采用新颖的实体关系编码器和互斥专家学习策略,能够捕捉实体的局部线索并消除偏见。实验结果显示,VETO + MEET的预测性能比现有技术高出47个百分点,且尺寸缩小了10倍。
完成下面两步后,将自动完成登录并继续当前操作。