Apple Machine Learning Research ·

从事物的位置到它们的用途：多模态大语言模型的空间–功能智能基准评估

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了空间功能智能基准（SFI-Bench），用于评估多模态大语言模型的高级推理能力。SFI-Bench包含1700多个基于视频的问题，重点评估结构化空间推理和功能推理。实验结果显示，现有模型在整合空间记忆与功能知识方面存在瓶颈，强调了提升多模态智能代理的必要性。

🎯

🔎

空间功能智能基准（SFI-Bench）强调了在多模态大语言模型中，理解物体的空间位置与功能用途之间的关系。这种能力不仅是基础几何感知的延伸，更是实现智能代理在复杂环境中有效决策的关键。

实验结果表明，当前的多模态大语言模型在整合空间记忆与功能知识方面存在显著瓶颈。这一发现提示研究者需要关注如何提升模型的综合推理能力，以便更好地应对现实世界中的复杂任务。

SFI-Bench作为一种新兴的评估工具，能够系统性地测量多模态智能代理的推理能力。随着技术的发展，未来可能会有更多基于此基准的研究，推动智能代理在实际应用中的表现提升。

❓

空间功能智能基准（SFI-Bench）是用于评估多模态大语言模型高级推理能力的基准，包含1700多个基于视频的问题。

SFI-Bench重点评估结构化空间推理和功能推理这两种推理能力。

结构化空间推理涉及理解复杂布局和形成空间表征，而功能推理则是推断物体的可用性和上下文相关的效用。

实验结果显示，现有模型在整合空间记忆与功能知识方面存在瓶颈。

SFI-Bench的实验结果强调了提升多模态智能代理的必要性，以克服现有模型的瓶颈。

SFI-Bench的任务包括条件计数、多跳关系推理、功能配对和知识基础的故障排除等。

🏷️