多模态场景中的情境推理
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有数据集在多模态性、数据多样性和任务范围等方面的不足,提出了一个大规模的多模态情境问答数据集MSQA。通过引入交错多模态输入设置和新基准评估模型的情境推理能力,研究展示了MSQA作为预训练数据集在提高推理模型效果方面的潜力。
该研究介绍了一个新任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中理解情境并回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了代理人的推理能力。结果显示,最佳方法的得分为47.20%,而业余人类参与者的得分为90.06%。研究者认为该任务有助于未来AI研究中情境理解和推理能力的发展。