NavCoT: 基于学习的解耦推理,提升基于 LLM 的视觉与语言导航
原文中文,约300字,阅读约需1分钟。发表于: 。通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在 R2R 数据集上实现了约 7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。
通过NavCoT策略提高基于LLM的自主导航决策性能,减少领域差距。NavCoT在各种训练设置和导航基准上表现优越,通过参数微调在R2R数据集上实现了7%的相对改进。该方法有助于开发适应任务且可扩展的基于LLM的真实世界机器人应用。