从自我中心视频评估心智理论推理的基准 EgoToM

📝

内容提要

本研究提出了EgoToM,这是一个新的视频问答基准,旨在将心智理论(ToM)评估扩展到自我中心领域。通过使用因果ToM模型,我们生成了用于Ego4D数据集的多选视频问答实例,评估对摄像机佩戴者目标、信念和下一步动作的预测能力。研究发现,尽管多模态大型语言模型(MLLMs)在从自我中心视频中推断目标时接近人类水平,但在推断佩戴者的即时信念状态和最符合未观视频未来的未来动作时,仍低于人类表现。

➡️

继续阅读