生成三维场景中问题的上下文感知自然答案
原文中文,约400字,阅读约需1分钟。发表于: 。在 3D 视觉语言的年轻领域中,我们将问题回答的任务转变为序列生成任务,以生成自由形式的自然答案来回答 3D 场景中的问题(Gen3DQA)。我们直接优化我们的模型以获得全局句子语义,并使用一种实用的语言理解奖励来进一步提高句子质量。我们的方法在 ScanQA 基准上达到了新的最佳性能(测试集的 CIDEr 得分为 72.22/66.57)。
该研究提出了一个新的任务SQA3D,用于评估代理人的场景理解能力。数据集包含6.8k个情境和33.4k个问题。最佳方法只达到了47.20%的得分,业余人类参与者可以达到90.06%的得分。SQA3D可以促进未来AI研究的发展。