关于日常环境中动态时空推理的多模态数据集与基准
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一个新的任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中通过推理回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了各种方法的性能。结果显示,最佳方法的总体得分为47.20%,而业余人类参与者的得分为90.06%。作者认为该任务可以促进未来AI研究中更强的情境理解和推理能力。
🎯
关键要点
-
提出了一个新的任务来评估代理人的场景理解能力:三维情境中的位置问答(SQA3D)。
-
任务要求代理人理解其所处的情境,并通过推理回答问题。
-
建立了一个包含6.8k个情境和33.4k个问题的数据集。
-
评估了智能代理人的推理能力,包括空间关系理解、常识理解、导航和多跳推理。
-
SQA3D对当前3D推理模型提出了重大挑战。
-
最佳方法的总体得分为47.20%,而业余人类参与者的得分为90.06%。
-
作者认为SQA3D可以促进未来AI研究中更强的情境理解和推理能力。
➡️