PLD——自我改进的VLA：先通过离策略RL学习一个轻量级的残差动作策略，然后让该残差策略收集专家数据，最后蒸馏到VLA中

💡 原文中文，约9500字，阅读约需23分钟。

📝

内容提要

本文探讨了通过残差强化学习提升视觉-语言-动作模型的自我改进能力，提出了一种名为PLD的方法，包含在线专家获取、自动数据收集和监督微调三个阶段。该方法结合基础策略和强化学习专家，成功率超过99%。

🎯

关键要点

本文探讨通过残差强化学习提升视觉-语言-动作模型的自我改进能力，提出PLD方法。
PLD方法包含三个阶段：在线专家获取、自动数据收集和监督微调。
在在线专家获取阶段，冻结VLA主干网络，通过离线策略RL训练轻量级残差actor，成功率超过99%。
自动数据收集阶段采用混合rollout方案，生成恢复数据以缓解分布偏移。
监督微调阶段通过SFT将收集的数据蒸馏回基础模型，支持多种操作任务的零样本部署。
PLD方法结合基础策略和强化学习专家，显著提升了模型的性能，尤其在LIBERO基准上表现优异。

❓

延伸问答

PLD方法的主要目标是什么？

PLD方法旨在通过残差强化学习提升视觉-语言-动作模型的自我改进能力。

PLD方法包含哪些主要阶段？

PLD方法包含在线专家获取、自动数据收集和监督微调三个阶段。

在PLD的在线专家获取阶段，如何训练残差策略？

在该阶段，冻结VLA主干网络，通过离线策略RL训练轻量级残差actor，成功率超过99%。

PLD方法如何解决数据收集中的分布偏移问题？

PLD采用混合rollout方案，使残差接管更偏向于基础模型经常访问的状态，从而缓解分布偏移。

PLD方法在LIBERO基准上的表现如何？

PLD方法在LIBERO基准上实现了超过99%的性能。

PLD方法的监督微调阶段有什么特点？

监督微调阶段通过SFT将收集的数据蒸馏回基础模型，支持多种操作任务的零样本部署。

🏷️

继续阅读

2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
为什么中端市场买家正在重新思考他们的 UCaaS 策略
中型企业正在重新审视通信平台，强调集成、运营效率和合规性。它们快速采用统一通信（UC）平台，但面临资源不足的挑战。集成与行业特定系统的兼容性成为关键，许多...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
当 AgentGateway 遇上 OpenClaw.NET：企业级智能体基础设施的深度协同实战 - 张善友
2026年，Linux基金会的智能体AI基金会将AgentGateway作为核心项目，提供统一的流量管理方案。AgentGateway与OpenClaw....