RDT——清华开源的双臂机器人扩散大模型:先预训练后微调,支持语言、图像、动作多种输入(1B参数)
原文中文,约6600字,阅读约需16分钟。发表于: 。此外,在实践中,我们倾向于一次性预测一系列动作,即一个动作块,以促进时间一致性(Chi等,2023),并通过减少任务中的决策次数来缓解错误累积(Zhao等,2023)这可能导致分布外的动作,例如多个模式的算术平均值,这可能完全不可行(Pearce等,2023),相反,作者选择建模连续条件分布。幸运的是,对于作者的设置来说,这一缺点很小,因为。此外,值得强调的是,他们的目标是利用多机器人数据来...
清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1,旨在通过多机器人数据集进行预训练,并在特定双臂机器人上微调,以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构,整合视觉与语言输入,提升机器人在复杂任务中的表现。