研究评估了视觉语言模型在物理、因果推理和心理领域的表现。结果显示,这些模型在处理视觉数据时表现不足,尤其在直觉心理任务中失败。研究建议增强模型对因果关系、物理动力学和社会认知的理解,并强调认知启发式评估的重要性。
完成下面两步后,将自动完成登录并继续当前操作。