多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示,尽管GPT-o3优于开源模型,但仍未达到人类水平。该基准强调空间关系和路线推理,揭示了模型在复杂图像理解中的不足,为未来优化提供了参考。
本研究探讨了点云在3D空间推理中的作用,并提出了新的3D问答基准ScanReQA。尽管无点输入的语言模型表现良好,现有3D语言模型在理解空间关系方面仍存在挑战,为未来发展提供了重要见解。
本研究提出了一种新的概率空间注意力多实例学习框架(PSA-MIL),旨在解决全滑动图像分类中传统方法无法充分利用空间关系的问题。该方法通过可学习的距离衰减先验,将空间上下文融入注意力机制,从而提高分类准确性并降低计算成本。
本研究提出MagicComp,一种无需训练的双阶段细化方法,旨在改善文本到视频生成中的属性绑定、空间关系和复杂动作交互问题。实验结果表明,MagicComp在多个基准测试中超越现有方法,展示了其在复杂提示和轨迹可控视频生成中的潜力。
本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系和泛化能力不足的问题。实验结果表明,该模型的召回率提高了8.6%。
本研究评估了空间关系生成模型的性能,比较了文本到图像模型与大型语言模型。结果表明,LLMs在生成空间关系方面显著优于T2I模型,揭示了图像生成技术的不足与改进方向。
剪辑的关键在于掌控情绪、故事和节奏。通过丰富的情绪变化和清晰的空间关系吸引观众,确保每个镜头都有叙事作用。节奏需视听元素协调,跳过冗余部分以保持流畅。通过实践积累经验,提升技能。
本研究提出了PoseDiffusion框架,通过图卷积神经网络学习人体骨架的空间关系,解决了文本驱动的姿态骨架生成的挑战。实验结果显示PoseDiffusion在稳定性和多样性方面优于现有方法。
通过提供对象的显式位置信息并进行适当训练,仅文本的语言模型可以学习到空间关系。作者在视觉空间推理数据集上进行实验,使用位置标记的结果显著改善。仅文本的语言模型在空间关系理解方面表现优于视觉与语言模型,成为最新技术成果。作者的分析显示,仅文本的语言模型能够推广到未出现的关系,并学习了更有用的信息。
研究者提出了一种名为“RelatiViT”的新方法,利用Transformer模型的长程注意力能力对基准数据集进行标注和评估,以提高计算机视觉系统在识别实物基础空间关系方面的性能。实验证明,RelatiViT在实际场景中优于朴素基准的空间关系预测方法。
该文章介绍了一种自动方法,通过生成包含14种显式空间关系的合成标题来改进文本到图像系统的准确性。作者提出了Spatial Relation for Generation (SR4G)数据集,通过训练和测试标题中的对象集不相交的方式来测试泛化性能。实验结果显示,通过微调稳定扩散模型SD$_{SR4G}$可以提高VISOR指标高达9个点,并且在未见过的分割中仍然有效。该方法通过更少的参数改进了最先进的方法,并避免了复杂的架构。
本研究提出了“深度空间背景”(DSCon)方法,通过研究基于注意力的视觉模型中的空间背景概念。实验证明,在肿瘤病变的分类中,空间关系比正常组织更重要,且邻域大小与上下文信息价值呈负相关。
该论文提出了一种基于认知系统的深度网络模型,通过使用空间关系的接地和递增式的学习,以及基于非单调逻辑推理和基础常识域知识的决策,实现对场景中物品遮挡和稳定性的推理。同时,通过识别与任务相关的图像区域训练深度网络模型来提高决策的可靠性和减少相关的训练工作量。
研究人员提出了一种名为Separate and Locate (SaL)的新方法,通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系,从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进,并且无需任何预训练任务。
本文介绍了一种通用的隐式管线,用于快速组合 NeRF 对象并实现无缝放置和渲染。作者提出了一种新的表面表示方法,称为 NeDF,通过射线与隐式表面的相交计算来确定对象之间的空间关系。这是第一个同时实现渐进和互动式 NeRF 对象组合的方法,也是现有 NeRF 工作的预览插件。
完成下面两步后,将自动完成登录并继续当前操作。