鸟瞰视角下的视觉语言导航场景图

原文约300字,阅读约需1分钟。发表于:

利用 BEV 场景图编码室内环境的场景布局和几何线索以解决视觉语言导航中对于三维场景几何和全景观察选择的限制,该方法在 REVERIE、R2R 和 R4R 数据集上显著优于现有方法,展示了 BEV 感知在视觉语言导航中的潜力。

DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。

相关推荐 去reddit讨论