本文介绍了一种多模态变长记忆转换器(MTVM)方法,提升视觉和语言导航的性能。在R2R和CVDN数据集上的评估显示,成功率提高了2%,并减少了目标处理时间。此外,研究提出了具有身体感知的语言模型(VELMA),成功率提高了25%-30%。这些方法有效增强了导航能力和可解释性,为未来的导航研究提供了新方向。
完成下面两步后,将自动完成登录并继续当前操作。