$DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹$

结构之法算法之道 ·

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

本文回顾了作者创业11年的历程，并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制，采用双系统架构，分别负责高层推理和低层动作执行，提升了动态环境中的导航能力。实验结果表明，DualVLN在多种场景中表现优异，成功率高，导航误差低。

🎯

🔎

DualVLN模型采用双系统架构，分别负责高层推理和低层动作执行。这种设计使得系统能够在动态环境中更有效地进行导航，提升了鲁棒性和适应性。System 2专注于生成中间像素级目标，而System 1则快速执行动作，确保了实时控制的高效性。

DualVLN通过结合显式像素目标和隐式潜在目标，增强了推理与局部规划的连接。显式目标提供了可解释性，而隐式目标则利用VLM的丰富特征，提升了系统的适应性和泛化能力。这种结合是实现高效学习和动态环境适应的关键。

实验结果显示，DualVLN在多种场景中表现优异，成功率高且导航误差低。这表明该模型在真实环境中的鲁棒性和泛化能力，尤其是在复杂任务中，相较于其他基线方法，DualVLN展现出更强的性能，具有重要的应用潜力。

❓

DualVLN模型结合视觉-语言导航推理与实时控制，采用双系统架构提升动态环境中的导航能力。

DualVLN通过System 2进行高层推理，生成中间像素级目标，而System 1则负责将目标转换为可通行轨迹，实现低层动作执行。

实验结果显示，DualVLN在多种场景中表现优异，成功率高，导航误差低，优于其他基线方法。

结合显式像素目标和隐式潜在目标可以提升推理与局部规划的连接，增强模型的可解释性和泛化能力。

System 2是大型基础VLM，执行慢但鲁棒的推理；System 1是轻量级策略模型，负责将目标转换为可通行轨迹。

DualVLN采用解耦训练，使每个系统专精，System 2利用大规模推理数据扩展，而System 1只需少量低层级目标数据。

🏷️