自我规范:物理社会规范理解的基准测试
📝
内容提要
本研究针对机器在物理和社会背景下缺乏规范理解和推理的gap,通过提出EgoNormia数据集,包含1853个以自我为中心的人际互动视频,评估视觉语言模型(VLMs)的规范推理能力。研究发现,当前最先进的VLMs在规范理解方面表现薄弱,最高得分仅为45%,而人类评分达到92%。
🏷️
标签
➡️