小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型多模态推理模型（LMRMs）在开放和不确定环境中的推理能力，提出了从任务特定模块到统一语言中心框架的演变路线图，并展望了其在复杂环境中的适应性和规划能力。

Perception, Reasoning, Thinking, and Planning: A Survey of Large Multimodal Reasoning Models

BriefGPT - AI 论文速递 ·

本论文提出了WebQA，引入了一个新的测量标准，涉及大规模最先进模型的困难之处，但对人类来说很简单。目标是创建统一的多模态推理模型，回答问题并查询丰富的视觉在线世界。

面包或吉娃娃？用多面板视觉语言模型挑战性大的 VQA 任务

BriefGPT - AI 论文速递 ·