关于日常环境中动态时空推理的多模态数据集与基准

本研究针对现有机器学习模型在日常环境中的时空推理能力不足的问题，构建了一个包含标准化注释的人工视频数据集，旨在推动具身智能（Embodied AI）的发展。实验结果表明，该数据集有效评估了机器人对人类行为和家庭环境的理解能力，具有显著的应用潜力。

该文章介绍了一个新的任务，用于评估代理人的场景理解能力。任务要求代理人在三维场景中通过推理回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集，并评估了各种方法的性能。结果显示，最佳方法的总体得分为47.20%，而业余人类参与者的得分为90.06%。作者认为该任务可以促进未来AI研究中更强的情境理解和推理能力。

代理人场景理解性能评估推理能力数据集