城市场景理解的 3D 问答
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究介绍了一个新任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中理解情境并回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了代理人的推理能力。最佳方法得分为47.20%,而业余人类参与者得分为90.06%。研究者认为该任务有助于推动未来AI研究中情境理解和推理能力更强的体系结构的发展。
🎯
关键要点
- 提出了一个新的任务来评估代理人的场景理解能力:三维情境中的位置问答(SQA3D)。
- 任务要求代理人理解三维场景中的情境,并通过推理回答问题。
- 建立了一个包含6.8k个情境和33.4k个问题的数据集,评估代理人的推理能力。
- 评估了多种最先进的方法,最佳方法得分为47.20%,而业余人类参与者得分为90.06%。
- 研究者认为该任务有助于推动未来AI研究中情境理解和推理能力更强的体系结构的发展。
➡️