$RDT2——基于UMI数据实现零样本且跨本体的泛化：先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)$

结构之法算法之道 ·

RDT2——基于UMI数据实现零样本且跨本体的泛化：先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

💡 原文中文，约22200字，阅读约需53分钟。

📝

内容提要

RDT2是一种新型机器人基础模型，旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略，RDT2能够高效处理多样化的真实世界任务，提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异，尤其在复杂操作和动态任务中，展现出显著的性能提升。

🎯

🔎

RDT2采用了三阶段训练策略，包括离散化预训练、连续流匹配和扩散蒸馏。这种方法不仅提高了模型的推理效率，还有效解决了传统模型在处理复杂任务时的性能瓶颈。通过这种创新的训练流程，RDT2能够在未见过的物体和场景中实现更好的泛化能力，展示了其在机器人领域的潜力。

RDT2的成功依赖于大规模的UMI数据集，该数据集涵盖了多样化的家庭环境和任务。这表明，数据的规模和多样性对于提升模型的泛化能力至关重要。未来的研究可以考虑如何进一步扩展数据集，以支持更广泛的应用场景和任务类型。

尽管RDT2在零样本测试中展现出一定的能力，但成功率仍然不高。这提示我们，尽管模型具备组合式泛化能力，但在实际应用中仍需克服许多挑战。未来的研究应关注如何提高模型在新场景和新指令下的成功率，以实现更广泛的应用。

❓

RDT2模型旨在实现跨本体、物体和场景的零样本迁移能力。

RDT2通过使用UMI数据集和三阶段训练策略，能够高效处理多样化的真实世界任务，从而提升泛化能力。

RDT2的训练过程包括离散化预训练、连续流匹配和扩散蒸馏三个阶段。

RDT2在微调实验中表现优异，尤其在复杂操作和动态任务中展现出显著的性能提升。

UMI数据集提供了大规模且多样化的数据，帮助RDT2在不同环境和任务中实现良好的泛化。

RDT2在零样本测试中的成功率虽不高，但具有深远意义，表明其具备组合式泛化能力。

🏷️