多模态大型语言模型的预测能力尚未充分探索。研究引入新基准测试,评估其在抽象模式、人类活动和物理交互预测中的表现。实验揭示了模型的优缺点,并为未来开发提供标准化框架。
完成下面两步后,将自动完成登录并继续当前操作。