RDT2——基于UMI 数据实现零样本且跨各本体形态的泛化:先训练VLM、后训练扩散动作专家、最后将将扩散策略蒸馏为一步生成器

📝

内容提要

本文探讨了视觉-语言-动作(VLA)模型在机器人领域的应用挑战与创新解决方案。当前VLA模型面临泛化能力不足、数据获取成本高、跨平台迁移困难等问题。研究团队提出RDT2模型,基于7B规模的Qwen2.5-VL预训练模型,采用三阶段训练策略:离散动作编码、连续概率建模和高效蒸馏。同时,通过改进UMI硬件系统收集了10,000+小时的多样化真实环境数据。这些创新旨在解决机器人学习中的关键难题,包...

🏷️

标签

➡️

继续阅读