小红花·文摘

本文探讨了多模态大型语言模型（MLLMs）在预测推理方面的能力，提出了新的基准测试，评估其在抽象推理、人类活动预测和物理交互预测中的表现。研究开发了三种评估方法，验证了模型在多模态上下文中的推理能力，并指出了当前模型的优缺点，为未来模型的发展提供了标准化框架。