小红花·文摘

多模态大型语言模型的预测能力尚未充分探索。研究引入新基准测试，评估其在抽象模式、人类活动和物理交互预测中的表现。实验揭示了模型的优缺点，并为未来开发提供标准化框架。