多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示,尽管GPT-o3优于开源模型,但仍未达到人类水平。该基准强调空间关系和路线推理,揭示了模型在复杂图像理解中的不足,为未来优化提供了参考。
本研究探讨了点云在3D空间推理中的作用,并提出了新的3D问答基准ScanReQA。尽管无点输入的语言模型表现良好,现有3D语言模型在理解空间关系方面仍存在挑战,为未来发展提供了重要见解。
本研究提出了一种新的概率空间注意力多实例学习框架(PSA-MIL),旨在解决全滑动图像分类中传统方法无法充分利用空间关系的问题。该方法通过可学习的距离衰减先验,将空间上下文融入注意力机制,从而提高分类准确性并降低计算成本。
本研究提出MagicComp,一种无需训练的双阶段细化方法,旨在改善文本到视频生成中的属性绑定、空间关系和复杂动作交互问题。实验结果表明,MagicComp在多个基准测试中超越现有方法,展示了其在复杂提示和轨迹可控视频生成中的潜力。
本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系的问题。通过增强空间关系建模和利用新数据集进行训练,LLaVA-SpaceSGG在召回率上显著提高,实验结果显示召回率提升8.6%,平均召回率提升28.4%。
本研究评估了空间关系生成模型的性能,比较了文本到图像模型与大型语言模型。结果表明,LLMs在生成空间关系方面显著优于T2I模型,揭示了图像生成技术的不足与改进方向。
本研究提出了一种基于注意力的电动车充电需求预测方法(AHMDF),有效解决了传统模型在捕捉空间关系和时间特征方面的不足。该方法结合地理聚类超图和多变量门控变换器,考虑了静态和动态影响,实验结果表明其在多个数据集上优于其他模型,突显了动态影响在城市区域预测中的重要性。
本研究提出了ING-VP基准,以评估多模态大语言模型在空间关系和多步骤推理方面的能力。评估结果显示,表现最佳的模型Claude-3.5 Sonnet的平均准确率仅为3.37%,揭示了当前模型在复杂空间推理中的局限性。
剪辑的关键在于掌控情绪、故事和节奏。通过丰富的情绪变化和清晰的空间关系吸引观众,确保每个镜头都有叙事作用。节奏需视听元素协调,跳过冗余部分以保持流畅。通过实践积累经验,提升技能。
本文探讨了代理人在视觉指代游戏中如何通过一致的视觉表示实现有效沟通,强调符号与视觉语义的关联。提出了一个统一框架以促进认知科学、神经科学和机器学习领域的合作,解决表示对齐问题。同时,研究了结构化语言的出现与输入数据结构的关系,展示了代理在空间关系沟通中的能力及其与人类交流的相似性。
本文探讨了大型语言模型(LLMs)在空间关系表示和推理中的能力,特别是通过自然语言导航任务评估其表现。研究发现,LLMs在不同空间结构中的表现存在变异性,并能利用对象名称作为地标。尽管LLMs在空间理解上有一定能力,但仍需改进。此外,研究提出了基于LLMs的文档理解方法LayoutLLM,显示出在文档分析任务中的性能提升。
这篇论文研究了大型语言模型(LLMs)在数学推理和空间关系表示中的能力,特别是在几何推理和符号复杂度方面的挑战。实验表明,LLMs在处理空间结构时存在变异性,并提出了基于多智能体系统的框架以提升其推理能力。同时,研究还探讨了神经网络在数学推理中的应用及其局限性。
LLM-Grounder是一种基于大型语言模型的零样本3D视觉定位方法,能够解析自然语言查询并识别3D场景中的对象,评估对象间的空间关系。该方法无需标签数据,适用于新场景,定位准确性优越,尤其在复杂查询中表现突出。实验结果显示,LLM-Grounder有效提升了3D视觉任务中的定位能力。
本文探讨了视觉语言模型(VLM)在空间推理中的应用,强调通过大规模数据训练提升其在视觉问答中的表现。研究指出现有模型在理解空间关系方面的不足,并提出使用更精确的空间位置信息来改善多模态大型语言模型(MLLM)的空间感知能力。通过引入新数据集和训练方法,展示了文本模型在空间关系理解上的优势,并提出了一种新方法Cola,以协调多个VLM增强视觉推理能力。
本文提出了一种新型的少样本动作识别方法SA-CT,通过整合空间关系和时间信息,显著提升了模型的判别能力。该方法在多目标跟踪中取得了76.5%的MOTA和73.6%的IDF1,表现优异。
本研究提出了一种新方法,通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性。实验结果表明,该方法在生成逼真互动方面优于现有技术,能够有效处理复杂的空间关系和多样的物体形状。
本研究提出了“深度空间背景”(DSCon)方法,通过研究基于注意力的视觉模型中的空间背景概念。实验证明,在肿瘤病变的分类中,空间关系比正常组织更重要,且邻域大小与上下文信息价值呈负相关。
该论文提出了一种基于认知系统的深度网络模型,通过使用空间关系的接地和递增式的学习,以及基于非单调逻辑推理和基础常识域知识的决策,实现对场景中物品遮挡和稳定性的推理。同时,通过识别与任务相关的图像区域训练深度网络模型来提高决策的可靠性和减少相关的训练工作量。
研究人员提出了一种名为Separate and Locate (SaL)的新方法,通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系,从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进,并且无需任何预训练任务。
本文介绍了一种通用的隐式管线,用于快速组合 NeRF 对象并实现无缝放置和渲染。作者提出了一种新的表面表示方法,称为 NeDF,通过射线与隐式表面的相交计算来确定对象之间的空间关系。这是第一个同时实现渐进和互动式 NeRF 对象组合的方法,也是现有 NeRF 工作的预览插件。
完成下面两步后,将自动完成登录并继续当前操作。