π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)
💡
原文中文,约9200字,阅读约需22分钟。
📝
内容提要
本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。
🎯
关键要点
- 本文探讨通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。
- 传统训练方法导致知识损失和推理速度慢。
- 知识隔离技术有效保护预训练模型知识,使模型适应机器人控制任务。
- VLA模型需要高频率实时生成连续指令,传统的离散token解码不适合。
- 引入动作专家会显著损害训练速度和知识迁移效果。
- 知识隔离的核心思想是在微调VLM主干时,适配一个动作专家但不将其梯度反向传播到VLM主干。
- 这种方法使得模型学习速度更快且更稳定,同时实现快速推理。
- 通过联合训练,模型能够在通用视觉-语言数据上进行训练,减少知识损失。
- 作者提出的训练方案能够快速训练、保留VLM知识并支持高频率连续动作输出。
- 联合训练使用非动作数据集,确保模型在适配为VLA时知识损失更少。
- 停止动作专家与主干权重之间的梯度流,保护VLM的核心知识。
- 通过流匹配训练的动作专家的梯度可能对主干的训练动态产生不利影响。
- 作者建议停止动作专家到模型中预训练权重的梯度流,以保护VLM知识。
➡️