该文章介绍了实体说明任务,结合视觉说明模型和导航能力,减少次优视角的视觉模糊。作者构建了包含10K个混乱物体的3D场景和注释段落的ET-Cap数据集,并提出了级联实体说明模型(CaBOT)。实验证明CaBOT优于其他基线模型。
完成下面两步后,将自动完成登录并继续当前操作。