视觉语言模型对人类意图理解的能力:开放式心智理论问题评估基准
📝
内容提要
本研究针对视觉语言模型在推断人类意图和心理状态方面的能力不足进行深入探讨。我们提出了一种开放式问题的框架,并构建了一个包含30张图像的评估基准数据集,以评估不同类别的心智理论任务。实验结果表明,GPT-4模型的表现优于其他模型,但在复杂场景下(如欺凌或作弊)仍面临挑战。
🏷️
标签
➡️