小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

多模态模型在高分辨率地铁图推理中面临挑战。ReasonMap评测基准显示,尽管GPT-o3优于开源模型,但仍未达到人类水平。该基准强调空间关系和路线推理,揭示了模型在复杂图像理解中的不足,为未来优化提供了参考。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

量子位
量子位 · 2025-06-07T05:24:01Z

本研究探讨了点云在3D空间推理中的作用,并提出了新的3D问答基准ScanReQA。尽管无点输入的语言模型表现良好,现有3D语言模型在理解空间关系方面仍存在挑战,为未来发展提供了重要见解。

点、视觉与文本:点云是否提升大语言模型的空间推理能力?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了一种新的概率空间注意力多实例学习框架(PSA-MIL),旨在解决全滑动图像分类中传统方法无法充分利用空间关系的问题。该方法通过可学习的距离衰减先验,将空间上下文融入注意力机制,从而提高分类准确性并降低计算成本。

Application of Probabilistic Spatial Attention-Based Multiple Instance Learning in Whole Slide Image Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出MagicComp,一种无需训练的双阶段细化方法,旨在改善文本到视频生成中的属性绑定、空间关系和复杂动作交互问题。实验结果表明,MagicComp在多个基准测试中超越现有方法,展示了其在复杂提示和轨迹可控视频生成中的潜力。

MagicComp: Training-Free Dual-Phase Refinement for Compositional Video Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了LLaVA-SpaceSGG模型,解决了现有场景图生成模型在开放词汇环境中忽视空间关系和泛化能力不足的问题。实验结果表明,该模型的召回率提高了8.6%。

LLaVA-SpaceSGG:具有增强空间关系的开放词汇场景图生成的视觉指令调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究评估了空间关系生成模型的性能,比较了文本到图像模型与大型语言模型。结果表明,LLMs在生成空间关系方面显著优于T2I模型,揭示了图像生成技术的不足与改进方向。

评估文本和图像生成模型中的空间关系生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

剪辑的关键在于掌控情绪、故事和节奏。通过丰富的情绪变化和清晰的空间关系吸引观众,确保每个镜头都有叙事作用。节奏需视听元素协调,跳过冗余部分以保持流畅。通过实践积累经验,提升技能。

新手剪辑指南:10大核心要素

老杨SEM博客
老杨SEM博客 · 2024-09-24T05:38:41Z

本研究提出了PoseDiffusion框架,通过图卷积神经网络学习人体骨架的空间关系,解决了文本驱动的姿态骨架生成的挑战。实验结果显示PoseDiffusion在稳定性和多样性方面优于现有方法。

GUNet:用于稳定和多样化姿态生成的图卷积网络联合扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

通过提供对象的显式位置信息并进行适当训练,仅文本的语言模型可以学习到空间关系。作者在视觉空间推理数据集上进行实验,使用位置标记的结果显著改善。仅文本的语言模型在空间关系理解方面表现优于视觉与语言模型,成为最新技术成果。作者的分析显示,仅文本的语言模型能够推广到未出现的关系,并学习了更有用的信息。

学习定位对象提高视觉语言模型的空间推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

研究者提出了一种名为“RelatiViT”的新方法,利用Transformer模型的长程注意力能力对基准数据集进行标注和评估,以提高计算机视觉系统在识别实物基础空间关系方面的性能。实验证明,RelatiViT在实际场景中优于朴素基准的空间关系预测方法。

多目标跟踪的表示对齐对比正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

该文章介绍了一种自动方法,通过生成包含14种显式空间关系的合成标题来改进文本到图像系统的准确性。作者提出了Spatial Relation for Generation (SR4G)数据集,通过训练和测试标题中的对象集不相交的方式来测试泛化性能。实验结果显示,通过微调稳定扩散模型SD$_{SR4G}$可以提高VISOR指标高达9个点,并且在未见过的分割中仍然有效。该方法通过更少的参数改进了最先进的方法,并避免了复杂的架构。

完美无误:改进文本到图像模型中的空间一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本研究提出了“深度空间背景”(DSCon)方法,通过研究基于注意力的视觉模型中的空间背景概念。实验证明,在肿瘤病变的分类中,空间关系比正常组织更重要,且邻域大小与上下文信息价值呈负相关。

深度空间上下文:当注意力模型遇见空间回归

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-18T00:00:00Z

该论文提出了一种基于认知系统的深度网络模型,通过使用空间关系的接地和递增式的学习,以及基于非单调逻辑推理和基础常识域知识的决策,实现对场景中物品遮挡和稳定性的推理。同时,通过识别与任务相关的图像区域训练深度网络模型来提高决策的可靠性和减少相关的训练工作量。

GRID:通用机器人智能开发平台

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-02T00:00:00Z

研究人员提出了一种名为Separate and Locate (SaL)的新方法,通过探索文本的上下文线索和设计空间位置嵌入来构建OCR文本之间的空间关系,从而在TextVQA和ST-VQA数据集上获得了较好的准确性改进,并且无需任何预训练任务。

分离与定位:重新思考文本的文本视觉问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-31T00:00:00Z

本文介绍了一种通用的隐式管线,用于快速组合 NeRF 对象并实现无缝放置和渲染。作者提出了一种新的表面表示方法,称为 NeDF,通过射线与隐式表面的相交计算来确定对象之间的空间关系。这是第一个同时实现渐进和互动式 NeRF 对象组合的方法,也是现有 NeRF 工作的预览插件。

快速 NeRF 构图与渲染的一般性隐式框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码