DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

💡 原文中文,约8800字,阅读约需21分钟。
📝

内容提要

本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。

🎯

关键要点

  • 作者回顾了创业11年的历程,涉及教育、大模型开发和具身开发。
  • 上海AI LAB发布了DualVLN模型,结合视觉-语言导航推理与实时控制。
  • DualVLN采用双系统架构,分别负责高层推理和低层动作执行,提升动态环境中的导航能力。
  • System 2是大型基础VLM,执行慢但鲁棒的推理,生成中间像素级目标。
  • System 1是轻量级策略模型,将目标转换为可通行轨迹,实现动态环境中的避障。
  • DualVLN通过潜在表示连接两个系统,解耦训练使每个系统专精。
  • 显式像素目标和隐式潜在目标的结合提升了推理与局部规划的连接。
  • DualVLN在多种场景中表现优异,成功率高,导航误差低。
  • 实验结果显示,DualVLN在真实环境中优于其他基线方法。
  • 消融实验验证了显式像素目标和潜在目标对系统性能的重要性。

延伸问答

DualVLN模型的主要功能是什么?

DualVLN模型结合视觉-语言导航推理与实时控制,采用双系统架构提升动态环境中的导航能力。

DualVLN模型是如何实现高层推理和低层动作执行的?

DualVLN通过System 2进行高层推理,生成中间像素级目标,而System 1则负责将目标转换为可通行轨迹,实现低层动作执行。

DualVLN在实验中表现如何?

实验结果显示,DualVLN在多种场景中表现优异,成功率高,导航误差低,优于其他基线方法。

为什么DualVLN采用显式像素目标和隐式潜在目标的结合?

结合显式像素目标和隐式潜在目标可以提升推理与局部规划的连接,增强模型的可解释性和泛化能力。

DualVLN的System 1和System 2有什么区别?

System 2是大型基础VLM,执行慢但鲁棒的推理;System 1是轻量级策略模型,负责将目标转换为可通行轨迹。

DualVLN模型的训练方法有什么特点?

DualVLN采用解耦训练,使每个系统专精,System 2利用大规模推理数据扩展,而System 1只需少量低层级目标数据。

➡️

继续阅读