PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中

PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中

💡 原文中文,约9500字,阅读约需23分钟。
📝

内容提要

本文探讨了通过残差强化学习提升视觉-语言-动作模型的自我改进能力,提出了一种名为PLD的方法,包含在线专家获取、自动数据收集和监督微调三个阶段。该方法结合基础策略和强化学习专家,成功率超过99%。

🎯

关键要点

  • 本文探讨通过残差强化学习提升视觉-语言-动作模型的自我改进能力,提出PLD方法。
  • PLD方法包含三个阶段:在线专家获取、自动数据收集和监督微调。
  • 在在线专家获取阶段,冻结VLA主干网络,通过离线策略RL训练轻量级残差actor,成功率超过99%。
  • 自动数据收集阶段采用混合rollout方案,生成恢复数据以缓解分布偏移。
  • 监督微调阶段通过SFT将收集的数据蒸馏回基础模型,支持多种操作任务的零样本部署。
  • PLD方法结合基础策略和强化学习专家,显著提升了模型的性能,尤其在LIBERO基准上表现优异。

延伸问答

PLD方法的主要目标是什么?

PLD方法旨在通过残差强化学习提升视觉-语言-动作模型的自我改进能力。

PLD方法包含哪些主要阶段?

PLD方法包含在线专家获取、自动数据收集和监督微调三个阶段。

在PLD的在线专家获取阶段,如何训练残差策略?

在该阶段,冻结VLA主干网络,通过离线策略RL训练轻量级残差actor,成功率超过99%。

PLD方法如何解决数据收集中的分布偏移问题?

PLD采用混合rollout方案,使残差接管更偏向于基础模型经常访问的状态,从而缓解分布偏移。

PLD方法在LIBERO基准上的表现如何?

PLD方法在LIBERO基准上实现了超过99%的性能。

PLD方法的监督微调阶段有什么特点?

监督微调阶段通过SFT将收集的数据蒸馏回基础模型,支持多种操作任务的零样本部署。

➡️

继续阅读