量子位 ·

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

李飞飞和谢赛宁的新研究探讨了多模态大模型的空间推理能力，发现这些模型在空间认知上与人类存在显著差距。研究提出了VSI-Bench基准测试，评估模型在视觉空间智能方面的表现，结果显示人类准确率为79%，而最佳模型仅为48.8%。此外，语言提示技术未能提升模型表现，反而导致下降，强调了认知地图在空间推理中的潜力。

🎯

关键要点

李飞飞和谢赛宁的新研究探讨多模态大模型的空间推理能力。
研究发现多模态大模型在空间认知上与人类存在显著差距，空间推理能力是主要瓶颈。
提出了VSI-Bench基准测试，评估模型在视觉空间智能方面的表现。
人类在VSI-Bench上的准确率为79%，而最佳模型仅为48.8%。
语言提示技术未能提升模型表现，反而导致下降。
认知地图在空间推理中具有潜力，能增强模型的空间距离能力。
研究设计了超5000个问答对，评测任务分为配置型、测量估计和时空任务三大类。
模型在理解局部空间关系时表现较好，但全局空间理解能力较弱。
使用认知地图辅助空间推理可提升模型准确率，为提升空间智能提供潜在解决方向。
研究团队包括李飞飞、谢赛宁及四位共同作者，吸引了广泛关注。

🔎

延伸解读

空间推理能力的瓶颈

研究表明，多模态大模型在空间推理方面的表现显著低于人类，尤其是在复杂的空间任务中。当前模型的准确率仅为48.8%，而人类则达到79%。这表明，提升空间推理能力是未来研究的关键方向，尤其是在实际应用中，如机器人导航和增强现实等领域。

语言提示技术的局限性

尽管语言提示技术在许多任务中有效，但在空间推理任务中却未能提升模型表现，反而导致性能下降。这一发现提示研究者在设计多模态模型时，需要重新考虑如何有效结合语言与视觉信息，以解决空间认知问题。

认知地图的潜力

研究指出，使用认知地图可以显著提升模型在空间推理任务中的准确率。这一发现为未来的多模态大模型提供了新的思路，表明在空间智能的研究中，如何有效利用认知地图将是一个重要的研究方向。

❓

延伸问答

李飞飞和谢赛宁的新研究主要探讨了什么内容？

研究主要探讨了多模态大模型的空间推理能力及其与人类的差距。

VSI-Bench基准测试的目的是什么？

VSI-Bench基准测试旨在评估多模态大模型在视觉空间智能方面的表现。

研究中人类在VSI-Bench测试中的表现如何？

人类在VSI-Bench测试中的平均准确率为79%。

语言提示技术在模型表现中起到了什么作用？

语言提示技术未能提升模型表现，反而导致性能下降。

认知地图在空间推理中有什么潜力？

认知地图可以增强多模态大模型的空间距离能力，提升模型的准确率。

研究团队的组成有哪些重要成员？

研究团队包括李飞飞、谢赛宁及四位共同作者，吸引了广泛关注。

🏷️