CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN:通过「视觉输入和语言指令」预测导航动作,且从动作和感知层面生成自我修正数据

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

CorrectNav是一种视觉-语言-动作导航模型,通过自我修正机制提升导航性能。该方法关注感知和动作错误,采用四个步骤进行自我纠正。在VLN-CE基准测试中,CorrectNav的成功率分别为65.1%和69.3%,优于现有模型,具备强大的纠错和动态障碍物规避能力。

🎯

关键要点

  • CorrectNav是一种视觉-语言-动作导航模型,通过自我修正机制提升导航性能。
  • 该方法关注感知和动作错误,采用四个步骤进行自我纠正。
  • 在VLN-CE基准测试中,CorrectNav的成功率为65.1%和69.3%,优于现有模型。
  • 自我修正飞轮包括评估模型、检测偏差、生成自我修正数据和持续训练。
  • CorrectNav具备强大的纠错能力、动态障碍物规避能力和长指令跟随能力。
  • 现有的视觉与语言导航模型主要分为基于拓扑图的方法和基于预训练视觉-语言模型的方法。
  • 作者强调错误纠正的价值,以突破当前技术的性能瓶颈。
  • CorrectNav模型由视觉编码器、投影器和大语言模型组成。
  • 导航微调任务包括导航动作预测、基于轨迹的指令生成和通用多模态数据回顾。
  • 为增强视觉多样性,作者实施了一系列领域随机化策略,收集了超过210万步导航动作预测数据。
➡️

继续阅读