$LWD——大规模部署中训练VLA的RL框架：结合“分布隐式价值学习”与“基于QAM的策略提取”，先离线RL预训练，后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环$

结构之法算法之道 ·

LWD——大规模部署中训练VLA的RL框架：结合“分布隐式价值学习”与“基于QAM的策略提取”，先离线RL预训练，后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

💡 原文中文，约7200字，阅读约需18分钟。

📝

内容提要

本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。该方法结合离线数据和在线交互，利用多样化的部署经验，优化策略以适应新任务和环境。作者提出的分布式隐式价值学习（DIVL）和带有伴随匹配的Q学习（QAM）技术，旨在提高策略的稳定性和泛化能力，实现高效的后训练。

🎯

关键要点

在真实世界中部署通用机器人策略需要高性能的通用策略，能够适应多样的任务和环境。
仅依靠离线预训练不足以确保策略的可部署性，需持续从部署经验中改进策略。
部署中学习（LWD）框架通过车队规模的离线到在线强化学习实现策略的持续改进。
分布式隐式价值学习（DIVL）和带有伴随匹配的Q学习（QAM）技术提高了策略的稳定性和泛化能力。
LWD方法结合离线数据和在线交互，优化策略以适应新任务和环境。
现有的强化学习方法通常局限于小规模或特定任务，缺乏对通用策略的有效后训练。
LWD通过复用异质的部署数据，快速适应新的部署数据，提升了后训练的可行性。
QAM技术将critic的动作梯度转换为逐步目标函数，避免了不稳定的反向传播过程。

❓

延伸问答

什么是部署中学习（LWD）框架？

部署中学习（LWD）框架是一种通过车队规模的离线到在线强化学习实现策略持续改进的方法，旨在优化机器人策略以适应新任务和环境。

LWD框架如何提高策略的稳定性和泛化能力？

LWD框架结合了分布式隐式价值学习（DIVL）和带有伴随匹配的Q学习（QAM）技术，这些技术能够有效处理异质数据并优化策略。

为什么仅依靠离线预训练不足以确保策略的可部署性？

因为真实世界的部署环境不断变化，机器人会遇到新的任务和环境，仅依赖离线数据无法适应这些变化。

LWD框架是如何利用部署经验进行策略改进的？

LWD框架通过共享策略聚合来自多个机器人在真实世界中的交互经验，从而形成闭环的数据飞轮，实现策略的持续改进。

QAM技术在LWD框架中起什么作用？

QAM技术将critic的动作梯度转换为逐步目标函数，避免了不稳定的反向传播过程，从而稳定地更新策略。

LWD框架如何应对多样化的任务和环境？

LWD框架通过复用异质的部署数据，快速适应新的任务和环境，提升了后训练的可行性。

🏷️

继续阅读

Realtime-VLA V2——如何让vla运行的更快：从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确
本文探讨了基于消费级GPU的实时视觉-语言模型（VLA）机器人控制技术。通过优化推理流程，推理延迟降低至27.3毫秒，抓取成功率达到100%。研究表明，V...
嵌入式音视频开发学习路线图谱详解：工程师视角的全栈路线
本文系统拆解了嵌入式音视频开发学习路线图，涵盖基础知识、底层驱动、编解码、流媒体协议和AI应用等内容。强调需建立系统链路思维，掌握从底层驱动到产品化的完整...
可能出现重大安全漏洞：开源内容管理框架Drupal将在5月20日发布核心安全更新
开源内容管理框架Drupal发布紧急安全通知，将于2026年5月20日发布核心安全更新，修复多个重大漏洞。所有管理员需预留时间进行升级，特别是受支持的版本...
通过SQL警报自动化数据和KPI监控
Databricks SQL Alerts正式推出，旨在实现自动化数据监控。用户可通过定义SQL条件和调度，及时发现数据质量问题，减少人工检查。该功能支持...
谷歌的AI未来需要信任——以及您的个人数据
谷歌在2026年I/O大会上展示了AI助手Gemini Spark，强调用户信任和个人数据的重要性。Gemini Spark能够整合用户的Gmail、日历...
Anthropic聘请OpenAI联合创始人安德烈·卡帕西领导Claude预训练研究
安德烈·卡帕西加入人工智能公司Anthropic，担任预训练团队成员。他曾是特斯拉高级主管和OpenAI创始成员，专注于大规模训练和研发。卡帕西的加入被视...