DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

📝

内容提要

本文提出DualVLN,首个双系统视觉语言导航基础模型,将高层推理与实时控制解耦。System2作为大型VLM进行鲁棒推理并生成像素级目标,System1作为轻量级扩散策略模型将目标转换为连续轨迹。通过潜在表示连接两个系统,System2先训练后冻结,System1通过潜在查询提取特征。这种设计使System2能利用大规模数据扩展,System1专注于高频控制。实验表明该方法在动态环境中实现...

🏷️

标签

➡️

继续阅读