小红花·文摘

本文介绍了一种多模态变长记忆转换器（MTVM）方法，提升视觉和语言导航的性能。在R2R和CVDN数据集上的评估显示，成功率提高了2%，并减少了目标处理时间。此外，研究提出了具有身体感知的语言模型（VELMA），成功率提高了25%-30%。这些方法有效增强了导航能力和可解释性，为未来的导航研究提供了新方向。