可对标π∗0.6的GigaBrain-0.5M*——从基于世界模型的RL中学习的 VLA:通过“预测的价值和未来状态、经验数据、人工纠正”迭代优化动作策略
📝
内容提要
摘要:本文提出GigaBrain-0.5M模型,通过世界模型增强的强化学习(RAMP)解决视觉-语言-动作(VLA)模型在长时程规划中的短视问题。该模型在GigaBrain-0.5M基础上,采用四阶段迭代训练:预训练世界模型预测未来状态和价值,微调策略生成动作,部署收集真实数据,并持续优化模型。相比π0.6的RECAP框架仅使用稀疏优势信号,RAMP利用世界模型提供更丰富的信息条件,理论上证...
➡️