本文探讨了多模态大型语言模型(MLLMs)在预测推理方面的能力,提出了新的基准测试,评估其在抽象推理、人类活动预测和物理交互预测中的表现。研究开发了三种评估方法,验证了模型在多模态上下文中的推理能力,并指出了当前模型的优缺点,为未来模型的发展提供了标准化框架。
完成下面两步后,将自动完成登录并继续当前操作。