RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成)：先预训练后微调，支持语言、图像、动作多种输入

此外，在实践中，我们倾向于一次性预测一系列动作，即一个动作块，以促进时间一致性（Chi等，2023），并通过减少任务中的决策次数来缓解错误累积（Zhao等，2023）这可能导致分布外的动作，例如多个模式的算术平均值，这可能完全不可行（Pearce等，2023），相反，作者选择建模连续条件分布。幸运的是，对于作者的设置来说，这一缺点很小，因为。此外，值得强调的是，他们的目标是利用多机器人数据来...

清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1，旨在通过多机器人数据集进行预训练，并在特定双臂机器人上微调，以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构，整合视觉与语言输入，提升机器人在复杂任务中的表现。

Transformer 双臂机器人多模态性大模型开源扩散大模型机器人预训练